[2026-06-02] A Hard-Label Black-Box Evasion Attack against ML-based Malicious Traffic Detection Systems

πŸ¦₯ λ³Έλ¬Έ

Motivation

κΈ°μ‘΄ νšŒν”Ό 기법

νŠΉμ • μ•”ν˜Έν™” ν”„λ‘œν† μ½œμ΄λ‚˜ 특수 λ„€νŠΈμ›Œν¬(Tor λ“±)μ—μ„œλ§Œ μž‘λ™ν•˜κ±°λ‚˜, νƒ€κ²Ÿ μ‹œμŠ€ν…œμ˜ λ‚΄λΆ€ ꡬ쑰λ₯Ό ν›€νžˆ μ•Œμ•„μ•Ό ν•˜λŠ” ν™”μ΄νŠΈλ°•μŠ€/κ·Έλ ˆμ΄λ°•μŠ€ ν™˜κ²½μ„ μ „μ œλ‘œ ν•˜κΈ° λ•Œλ¬Έμ— ν˜„μ‹€μ˜ λΈ”λž™λ°•μŠ€ ν™˜κ²½μ—μ„œλŠ” λΉ„μ‹€μš©μ 

Motivation

  • λ²”μš©μ„± : νŠΉμ • ν”„λ‘œν† μ½œμ΄λ‚˜ μ•”ν˜Έν™” μ—¬λΆ€ λ“±κ³Ό 상관 없이 적용
  • Hard-label : μ™„λ²½ν•œ λΈ”λž™λ°•μŠ€ μƒν™©μ—μ„œ ν†΅κ³Όν–ˆλŠ”μ§€, μ°¨λ‹¨ν–ˆλŠ”μ§€μ— λŒ€ν•œ κ²°κ³Όκ°’(Hard-label) ν”Όλ“œλ°± 만으둜 곡격을 성곡
  • μ΅œμ†Œν•œμ˜ νŒ¨ν‚· μ‘°μž‘λ§ŒμœΌλ‘œ μ•…μ„± νŠΈλž˜ν”½ 생성

Threat Model & Assumption

ν”Όν•΄μžμ˜ in-line으둜 κ΅¬μΆ•λœ 톡계적 νŒ¨ν„΄ 기반의 ML νŠΈλž˜ν”½ 탐지 μ‹œμŠ€ν…œ.

  • ML λͺ¨λΈ, νŒŒλΌλ―Έν„°, Feature extractor, ν›ˆλ ¨ 데이터 μ„ΈνŠΈ λ“± μ–΄λŠ 정보도 얻을 수 μ—†μŒ
    • λŒ€λΆ€λΆ„μ˜ νŠΈλž˜ν”½ 탐지 μ‹œμŠ€ν…œμ΄ closed source software μ΄κ±°λ‚˜ μ™Έμ£Ό ν΄λΌμš°λ“œ μ„œλΉ„μŠ€ ν˜•νƒœμ΄λ―€λ‘œ λΈ”λž™λ°•μŠ€μž„.
  • κ³΅κ²©μžλŠ” reconnaissance(μ •μ°°)을 톡해 pass/fail ν”Όλ“œλ°±μ„ μˆ˜μ§‘ν•  수 있음
    1. 탐지 μ‹œμŠ€ν…œ 뒀에 μžˆλŠ” 원격 호슀트둜 probe traffic을 전솑
      • μ•…μ„± νŽ˜μ΄λ‘œλ“œλŠ” μ•„λ‹ˆμ§€λ§Œ μ•…μ„± νŠΈλž˜ν”½ νŒ¨ν„΄μ„ λͺ¨λ°©
    2. TCPλŠ” RST, ACK, SYN-ACK을 톡해 톡과λ₯Ό 확인 νƒ€μž„ 아웃인 κ²½μš°μ—λŠ” 차단. UDPλŠ” QUIC을 μ‚¬μš©ν•˜μ—¬ ICMP Unreachable λ©”μ‹œμ§€λ₯Ό λ°›μœΌλ©΄ 톡과, μ—†μœΌλ©΄ 차단
      • 홉 μ œν•œ TTL, IPIDλ₯Ό 톡해 μΆ”κ°€ 확인 κ°€λŠ₯
  • μœ„ 과정을 톡해 정상 λ°μ΄ν„°μ˜ νŒ¨ν„΄μ„ νšλ“

NETMASQUERADE

image.png

BENIGN TRAFFIC PATTERN MIMICKING

Traffic-BERTλ₯Ό 톡해 정상 νŠΈλž˜ν”½ λ³΅μž‘ν•œ νŒ¨ν„΄μ„ λͺ¨λΈλ§. 기본적인 흐름 νŠΉμ§•(즉, νŒ¨ν‚· 크기 μ‹œν€€μŠ€ 및 νŒ¨ν‚· κ°„ μ§€μ—° μ‹œκ°„ μ‹œν€€μŠ€)을 μΆ”μΆœ

νŠΉμ§• μΆ”μΆœ : 두 κ°€μ§€ 문제 λ°œμƒ

  1. ν˜„μ‹€ λ„€νŠΈμ›Œν¬ ν”Œλ‘œμš°μ˜ 크기와 지속 μ‹œκ°„μ€ λ‹€μ–‘ν•˜μ§€λ§Œ, BERT 기반이라 μž…λ ₯ 크기λ₯Ό 고정됨.
    • paddingκ³Ό chunking으둜 ν‘œμ€€ν™”
  2. νŠΈλž˜ν”½μ΄ λ“€μ–΄μ˜€λŠ” μ‹œκ°„ 간격(IPD) 같은 μ†Œμˆ˜μ  λ°μ΄ν„°λŠ” 연속적인 값이며 크게 Skewed 됨.
    • Skewed λ°μ΄ν„°λŠ” ν•΄λ‹Ή ν† ν°λ§Œ μ§‘μ€‘μ μœΌλ‘œ ν•™μŠ΅ν•˜κ³  λ‚˜λ¨Έμ§€ 토큰듀이 ν•™μŠ΅λ˜μ§€ μ•ŠμŒ
    • 이산화 μ§„ν–‰ 및 밑이 10인 둜그λ₯Ό μ·¨ν•˜μ—¬ κ· μΌν•œ 뢄포λ₯Ό λ§Œλ“¦.
    • νŒ¨ν‚· 크기 같은 경우 MTU μ΄μƒμ˜ νŒ¨ν‚· 크기 같은 κ²½μš°λŠ” [UNK] 토큰 - 각각 νŠΉμ§•μ— λŒ€ν•œ 단어μž₯은 독립적. 자리 ν‘œμ‹œμž 및 νŠΉμ • 토큰 λ§ˆμŠ€ν‚Ήμ„ μœ„ν•΄ 각각 특수 토큰 [PAD]와 [MASK]λ₯Ό 단어μž₯에 μΆ”κ°€ - μž„λ² λ”©
    • 토큰 μž„λ² λ”© : 토큰을 λ‚˜νƒ€λ‚΄λŠ” 고차원 벑터. Traffic-BERT와 ν›ˆλ ¨
    • μœ„μΉ˜ μž„λ² λ”© : ν† ν°μ˜ μƒλŒ€μ  μœ„μΉ˜λ₯Ό λ‚˜νƒ€λƒ„. chunking μ‹œ, 첫 번째 μ„Έκ·Έλ¨ΌνŠΈλ₯Ό μ œμ™Έν•œ λ‹€λ₯Έ μ„Έκ·Έλ¨ΌνŠΈμ˜ μΈλ±μŠ€λŠ” 0λΆ€ν„° μ‹œμž‘ν•˜μ§€ μ•ŠμŒ

Traffic-BERT

μ—¬λŸ¬ 개의 feature μ‹œν€€μŠ€λ‘œ 처리. μ‹œν€€μŠ€ κ°„μ˜ μƒν˜Έμž‘μš©μ΄ μ€‘μš”

  • 두 κ°€μ§€ 문제
    1. μ˜€λ²„ν—€λ“œλ₯Ό μ¦κ°€μ‹œν‚€μ§€ μ•ŠμœΌλ©΄μ„œ 닀쀑 λͺ¨λ‹¬ νŠΉμ§•λ“€μ„ 효과적으둜 λͺ¨λΈλ§
      • μ–‘λ°©ν–₯ ꡐ차 μ–΄ν…μ…˜ : λ‹¨μˆœ concate ν•œ κ²½μš°μ—λŠ” 길이가 2λ°°κ°€ λ˜μ–΄ μ‹œκ°„ λ³΅μž‘λ„ 4λ°°κ°€ λ˜μ§€λ§Œ 이 방식을 μ‚¬μš©ν•˜λ©΄ μ˜€λ²„ν—€λ“œ 증가 X

        image.png

        • 각각 μ…€ν”„ μ–΄ν…μ…˜μ„ ν•œ ν›„ 은닉 μƒνƒœλ₯Ό 쿼리둜 μ‚¬μš©ν•˜μ—¬ λ‹€λ₯Έ μ‹œν€€μŠ€μ˜ 좜λ ₯κ³Ό μœ μ‚¬λ„ κ³„μ‚°ν•˜κ³  λ‹€λ₯Έ μ‹œν€€μŠ€μ˜ 값에 μ–΄ν…μ…˜ κ°€μ€‘μΉ˜λ₯Ό ν• λ‹Ή.
          • 예λ₯Ό λ“€μ–΄, μ—°μ‚° 기쀀은 νŒ¨ν‚· ν¬κΈ°μ§€λ§Œ μ°Έμ‘°ν•˜λŠ” μ‹€μ œ μ •λ³΄λŠ” IPD 데이터
        • λ§ˆμ§€λ§‰μ— FFN 계측을 ν†΅κ³Όν•˜μ—¬ λ‹€μŒ 인코더 λΈ”λ‘μ˜ μž…λ ₯으둜 μ‚¬μš©. λ§ˆμ§€λ§‰ 인코더 λΈ”λ‘μ˜ 좜λ ₯은 μ„ ν˜• 계측을 ν†΅κ³Όν•˜μ—¬ ν™•λ₯  뢄포λ₯Ό μ–»μŒ
    2. μΆ”κ°€ ν›ˆλ ¨ λΉ„μš© 없이, 곡격 νŠΈλž˜ν”½ 생성에 μ μš©ν•  수 μžˆλŠ” μœ μš©ν•œ νŒ¨ν„΄ 지식을 슀슀둜 깨우치게 ν•  ν›ˆλ ¨ 방법
      • 이쀑 μ‹œν€€μŠ€ λ§ˆμŠ€ν‚Ήμ„ 톡해 ν•™μŠ΅ : 각 μ‹œν€€μŠ€μ˜ 같은 μœ„μΉ˜μ— μžˆλŠ” 뢀뢄을 λ§ˆμŠ€ν‚Ή
        • 15% λ§ˆμŠ€ν‚Ή. 15%λ₯Ό λͺ¨λ‘ λ§ˆμŠ€ν‚Ή ν•˜μ§€ μ•Šκ³  3κ°€μ§€ μœ ν˜•μœΌλ‘œ λ‚˜λˆ”
        • Example : 15개의 단어λ₯Ό λ§ˆμŠ€ν‚Ήν•  λ•Œ
          • μœ ν˜• A (80%, μ•½ 12개): 빈칸인 [MASK] 기호둜 λ§ˆμŠ€ν‚Ή
          • μœ ν˜• B (10%, μ•½ 1.5개): μ „ν˜€ μ—‰λš±ν•œ λ¬΄μž‘μœ„ λ‹¨μ–΄λ‘œ 슬쩍 λ°”κΏ”μΉ˜κΈ°
          • μœ ν˜• C (10%, μ•½ 1.5개): 단어λ₯Ό λ°”κΎΈμ§€ μ•Šκ³  μ›λž˜ μ •λ‹΅ κ·ΈλŒ€λ‘œ 놔둠.
        • κ°œλ³„ νŠΉμ§• μ‹œν€€μŠ€ λ‚΄μ—μ„œ κΉŠμ€ μ–‘λ°©ν–₯ μ˜λ―Έλ‘ μ„ μˆ™λ‹¬(즉, μ–‘λ°©ν–₯인 μ•žλ’€ λ¬Έλ§₯을 잘 ν•™μŠ΅μ‹œν‚΄),
        • bi-cross attention에 μ˜ν•΄ λ„μž…λœ ꡐ차 νŠΉμ§• μƒν˜Έμž‘μš©μ„ κ°•ν™” (ν•΄λ‹Ή κ°œλ³„ μ‹œν€€μŠ€μ—μ„œ λ¬Έλ§₯ ν•™μŠ΅ 뿐만 μ•„λ‹ˆλΌ λ™μ‹œμ— masking을 ν•˜μ—¬ λ‹€λ₯Έ μ‹œν€€μŠ€μ˜ λ¬Έλ§₯ ν•™μŠ΅μ‘°μ°¨ κ°•ν™”)

ADVERSARIAL TRAFFIC GENERATION

νŠΈλž˜ν”½ λ³€μ‘° 과정을 μœ ν•œ ꡬ간 마λ₯΄μ½”ν”„ κ²°μ • κ³Όμ •(MDP)으둜 곡식화

  • μƒνƒœ 곡간 (State Space, S): νŠΉμ • μ‹œμ  tμ—μ„œμ˜ μƒνƒœλŠ” (νŒ¨ν‚· 크기 μ‹œν€€μŠ€, IPD μ‹œν€€μŠ€) 쌍으둜 μ •μ˜
  • 행동 곡간 (Action Space, A): κ³΅κ²©μžλŠ” λ§€ λ‹¨κ³„μ—μ„œ 단일 νŒ¨ν‚·μ˜ νŠΉμ§•(μ‹œκ°„)을 μˆ˜μ •ν•˜κ±°λ‚˜, κ°€μ§œ νŒ¨ν‚·(Chaff packet)을 ν•˜λ‚˜ μ‚½μž…. $a_t$λŠ” μˆ˜μ • λ˜λŠ” μ‚½μž…μ˜ 인덱슀.
    • 행동 κ°’ $a_t$κ°€ ν™€μˆ˜ (μ‹œκ°„ μ§€μ—° μ‘°μž‘) : νŒ¨ν‚· κ°„ μ§€μ—° μ‹œν€€μŠ€ ⌊at/2βŒ‹μ— μžˆλŠ” μš”μ†Œλ₯Ό μˆ˜μ •.
      • νŒ¨ν‚· 크기λ₯Ό λ³€κ²½ν•˜λ©΄ κ·Έ μ•ˆμ— λ‹΄κΈ΄ μ•…μ„± μ½”λ“œ(νŽ˜μ΄λ‘œλ“œ)κ°€ 깨질 수 μžˆμœΌλ―€λ‘œ Domain constraints을 μ§€ν‚€κΈ° μœ„ν•΄ ν¬κΈ°λŠ” κ·ΈλŒ€λ‘œ λ‘ 
    • 행동 κ°’ $a_t$κ°€ 짝수 (κ°€μ§œ νŒ¨ν‚· μ‚½μž…) : 각 μ‹œν€€μŠ€μ˜ μœ„μΉ˜ at/2에 μƒˆ μš”μ†Œλ₯Ό μΆ”κ°€
      • 이 λ•Œ 10개 짜리 νŒ¨ν‚·κ³Ό λ‚˜λ¨Έμ§€κ°€ νŒ¨λ”©μœΌλ‘œ μ±„μ›Œμ§„ μ‹œν€€μŠ€μ—μ„œ 50번째 μΈλ±μŠ€μ— μ‚½μž…ν•˜λΌλŠ” μ΄μƒν•œ 행동을 λ°©μ§€ν•˜κΈ° μœ„ν•΄ Invalid Action Masking λ©”μ»€λ‹ˆμ¦˜μ„ μ‚¬μš©ν•˜μ—¬ μ‹€ν–‰ λΆˆκ°€λŠ₯ν•œ ν–‰λ™μ˜ ν™•λ₯ μ„ 큰 μŒμˆ˜κ°’μœΌλ‘œ μ‘°μ •
  • 보상 ν•¨μˆ˜ (Reward Function, R): 보상은 μ„Έ κ°€μ§€ μš”μ†Œμ˜ ν•©μœΌλ‘œ ꡬ성 $r = r_E + \beta \cdot r_D + \gamma \cdot r_M$
    1. $r_E$ (νšŒν”Ό 보상): νƒ€κ²Ÿ λ°©μ–΄ μ‹œμŠ€ν…œμ„ λ¬΄μ‚¬νžˆ ν†΅κ³Όν•œ νŒ¨ν‚·μ˜ λΉ„μœ¨.
    2. $r_D$ (λΉ„μœ μ‚¬μ„± νŽ˜λ„ν‹°): λ³€μ‘°λœ νŠΈλž˜ν”½κ³Ό 원본 μ•…μ„± νŠΈλž˜ν”½ κ°„μ˜ 거리(Edit Distance)λ₯Ό μ΅œμ†Œν™”ν•˜κΈ° μœ„ν•œ νŽ˜λ„ν‹°. μ‘°μž‘ νšŸμˆ˜κ°€ λŠ˜μ–΄λ‚  λ•Œλ§ˆλ‹€ 음수 보상(-1)을 λΆ€μ—¬ν•˜μ—¬ μ—μ΄μ „νŠΈκ°€ μ΅œλŒ€ν•œ 적은 횟수둜 곡격을 μ„±κ³΅ν•˜λ„λ‘ μœ λ„.
    3. $r_M$ (νš¨κ³Όμ„± νŽ˜λ„ν‹°): 효과 νŒ¨λ„ν‹°. DDoS 곡격 같은 경우 νŠΈλž˜ν”½ 전솑λ₯ (Rate) λ“± μ•…μ„± 곡격 λ³Έμ—°μ˜ 파괴λ ₯을 μžƒμ§€ μ•Šλ„λ‘ κ°•μ œν•˜λŠ” νŽ˜λ„ν‹°
      • νŽ˜μ΄λ‘œλ“œμ—μ„œ λ°œμƒν•˜λŠ” μ•…μ„± ν–‰μœ„ : 우리 ν–‰μœ„κ°€ νŽ˜μ΄λ‘œλ“œλ₯Ό 건듀지 μ•ŠμœΌλ―€λ‘œ 0으둜 μ„€μ • - μ’…λ£Œ 쑰건
      • μ΅œλŒ€ μ‘°μž‘ νšŸμˆ˜κ°€ μž„κ³„κ°’μ— 도달
      • νšŒν”Όμœ¨μ΄ μž„κ³„κ°’ 초과
  • μ •μ±… μ΅œμ ν™” (Policy Optimization)
    • μ •μ±… : νŠΉμ • 상황이 μ£Όμ–΄μ‘Œμ„ λ•Œ, μ·¨ν•΄μ•Ό ν•˜λŠ” 행동을 ν™•λ₯ λ‘œ κ²°μ •
    • κ°€λ²Όμš΄ GRU 신경망을 μ‚¬μš©.
    • μ΅œμ ν™” μ•Œκ³ λ¦¬μ¦˜μœΌλ‘œ SAC μ‚¬μš©
      • 일반적인 κ°•ν™” ν•™μŠ΅ AIλŠ” 였직 β€˜κ°€μž₯ 높은 점수(보상)β€™λ§Œμ„ μ«“λ‹€λ³΄λ‹ˆ μ΄ˆλ°˜μ— μš°μ—°νžˆ 10점짜리 행동을 λ°œκ²¬ν•˜λ©΄, 사싀 100점짜리 정닡이 λ”°λ‘œ μžˆλŠ”λ°λ„ 주ꡬμž₯μ°½ 10점짜리 ν–‰λ™λ§Œ 반볡 (Local Optimum)
      • μ—”νŠΈλ‘œν”Όλ₯Ό λ†’μ΄λ©΄μ„œ (λ‹€μ–‘ν•œ ν™œλ™μ„ ν•˜λ©΄μ„œ) 점수λ₯Ό μ΅œλŒ€ν™”
      • Replay Bufferλ₯Ό 톡해 κ³Όκ±° ν”Όλ“œλ°±μ„ 버리지 μ•Šκ³  계속 μž¬ν™œμš©ν•˜μ—¬ ν•™μŠ΅ν•˜λŠ” μ˜€ν”„ν΄λ¦¬μ‹œ(Off-policy) 방식을 μ‚¬μš©
        • λ„ˆλ¬΄ 많이 찌λ₯΄λ©΄ 이상 탐지 μ•ŒλžŒμ΄ μšΈλ €λ²„λ¦¬κΈ° λ•Œλ¬Έμ— μ•„μ£Ό 적게 μ°”λŸ¬λ³΄κ³ λ„(적은 μƒ˜ν”Œ) λΉ λ₯΄κ²Œ ν•™μŠ΅ν•˜λŠ” λŠ₯λ ₯이 ν•„μˆ˜μ 
    • λ™μž‘ 흐름
      1. 행동 $a_t$λ₯Ό 톡해 λ§ˆμŠ€ν‚Ή
      2. Traffic-BERTλ₯Ό μ‚¬μš©ν•˜μ—¬ λ§ˆμŠ€ν‚Ή 뢀뢄을 정상 νŠΈλž˜ν”½μ˜ 크기와 μ‹œκ°„ κ°’μœΌλ‘œ 채움
      3. μ‹€μ œ 방어벽에 νŒ¨ν‚·μ„ μ˜μ•„ 보냄
        • μ΄λ•Œ, κ°€μ§œλ‘œ μΆ”κ°€λ˜κ±°λ‚˜ μˆ˜μ •λœ νŒ¨ν‚·μ€ μ œμ™Έν•˜κ³  λ‚˜λ¨Έμ§€ μ•…μ„± νŽ˜μ΄λ‘œλ“œλŠ” μ •μƒμ μœΌλ‘œ μ‘°λ¦½λ˜μ•Ό 곡격이 성곡
        • λ§Œμ•½ κ°€μ§œ νŒ¨ν‚·κΉŒμ§€ μ„œλ²„μ˜ μ• ν”Œλ¦¬μΌ€μ΄μ…˜μ΄ 같이 μ²˜λ¦¬ν•˜λ©΄ 였λ₯˜λ‘œ κ°„μ£Όν•˜κ³  RSTλ₯Ό 보내고 연결을 끊음
          • κ°€μ§œ νŒ¨ν‚·κΉŒμ§€ μ²˜λ¦¬λ˜μ§€ μ•ŠκΈ° μœ„ν•΄ TCP에 잘λͺ»λœ μ‹œν€€μŠ€ 번호λ₯Ό μ‚¬μš©ν•˜κ±°λ‚˜, UDP νŒ¨ν‚·μ— 짧은 TTL을 μ„€μ •ν•˜κ±°λ‚˜, λ‹€λ₯Έ ν”„λ‘œν† μ½œμ— λŒ€ν•΄ 재쑰립 νƒ€μž„μ•„μ›ƒ ν›„ νκΈ°λ˜λŠ” orphan IP 쑰각을 λ³΄λ‚΄λŠ” λ“±μ˜ 방법을 μ‚¬μš©
      4. (μƒνƒœ, 행동, 보상, 이후 μƒνƒœ)λ₯Ό replay buffer에 μ €μž₯
      5. replay buffer에 μ–΄λŠ 정도 μ €μž₯이 되면 Q-λ„€νŠΈμ›Œν¬λŠ” μžμ‹ μ΄ μ˜ˆμΈ‘ν–ˆλ˜ κ°€μΉ˜μ™€ μ‹€μ œ 받은 보상 κ°„μ˜ 였차λ₯Ό κ³„μ‚°ν•˜μ—¬ μžμ‹ μ˜ κ°€μ€‘μΉ˜λ₯Ό μ—…λ°μ΄νŠΈν•˜κ³ , κ·Έ 평가 기쀀을 μ •μ±… λ„€νŠΈμ›Œν¬μ— λ„˜κ²¨μ£Όμ–΄ μ •μ±… λ„€νŠΈμ›Œν¬κ°€ 더 λ‚˜μ€ 행동을 ν•™μŠ΅ν•˜λ„λ‘ μœ λ„
        • Q-λ„€νŠΈμ›Œν¬ : ν˜„μž¬ μƒνƒœ $s_t$μ—μ„œ νŠΉμ • 행동 $a_t$λ₯Ό μ·¨ν–ˆμ„ λ•Œ, λ―Έλž˜μ— 얻을 수 μžˆλŠ” λˆ„μ  λ³΄μƒμ˜ κΈ°λŒ“κ°’(Q-Value)을 κ³„μ‚°ν•˜λŠ” 신경망
          • Q-λŸ¬λ‹ μ•Œκ³ λ¦¬μ¦˜μ€ λ‹€μŒ μƒνƒœμ˜ κ°€μΉ˜λ₯Ό 평가할 λ•Œ μ΅œλŒ“κ°’μ„ 선택.
          • 톡계적인 λ…Έμ΄μ¦ˆκΉŒμ§€ 긍정적인 κ°€μΉ˜λ‘œ ν¬ν•¨μ‹œμΌœ, νŠΉμ • ν–‰λ™μ˜ κ°€μΉ˜λ₯Ό κ³ΌλŒ€ν‰κ°€
        • 이쀑 Q-λ„€νŠΈμ›Œν¬ : 두 개의 Q-λ„€νŠΈμ›Œν¬λ₯Ό λ™μ‹œμ— ν•™μŠ΅ν•œ ν›„, μ΅œμ†Ÿκ°’μ„ 선택
  • μΆ”λ‘  (Runtime Inference): μ‹€μ „ 곡격 μ‹œμ—λŠ” νƒ€κ²Ÿ μ‹œμŠ€ν…œμœΌλ‘œλΆ€ν„° μ‹€μ‹œκ°„ ν”Όλ“œλ°±($r_E$)을 받을 수 μ—†μœΌλ―€λ‘œ, ν•™μŠ΅λœ 이쀑 Q-Network의 값을 ν™œμš©ν•˜μ—¬ 곡격 성곡 μ—¬λΆ€λ₯Ό μΆ”μ •
    • μ μˆ˜κ°€ 일정 점수λ₯Ό λ„˜μœΌλ©΄ μ‘°μž‘μ„ μ€‘λ‹¨ν•˜κ³  νƒ€κ²Ÿ μ„œλ²„λ‘œ λ°œμ†‘

Evaluation

μ΅œλŒ€ 10번 μ΄ν•˜μ˜ μ‘°μž‘μœΌλ‘œ 96.5%의 곡격 성곡λ₯ μ„ 달성. 이전 기법에 λΉ„ν•΄ μ΅œλŒ€ 21% 뛰어남.

  • 1μ‹œκ°„ 이내에 우회 방법을 찾아냄 β†’ κΈ°μ‘΄ 곡격보닀 μ•½ 70λ°° λΉ λ₯Έ μ†λ„λ‘œ μ•…μ„± νŒ¨ν‚·μ„ 정상 νŒ¨ν‚·μœΌλ‘œ μ‹€μ‹œκ°„μœΌλ‘œ λ³€ν™˜

Contribution

  • ν•˜λ“œ λ ˆμ΄λΈ” λΈ”λž™λ°•μŠ€ 기법 νŠΈλž˜ν”½ 우회 곡격 ν”„λ ˆμž„μ›Œν¬ μ œμ•ˆ
  • 정상 νŠΈλž˜ν”½μ„ λͺ¨λ°©ν•  수 μžˆλŠ” Traffic-BERT 섀계
  • μ΅œμ†Œν•œμ˜ μ‘°μž‘λ§ŒμœΌλ‘œ 곡격을 ν•˜λŠ” μ΅œμ ν™” 방법 μ œμ‹œ

λ‚΄ 생각

  • μ–‘μžν™”λ₯Ό μœ„ν•΄ log ν•¨μˆ˜λ₯Ό μ·¨ν•  수 μžˆλ‹€λŠ” 점을 μ•Œκ²Œ 됨.
  • λ°©ν™”λ²½ λ‹¨μ—μ„œ κ°€μ§œ νŒ¨ν‚·μ„ λ“œλ‘­ν•˜κ³  톡계 뢄석을 ν•œλ‹€λ©΄..?
    • 계산 λΉ„μš©μ΄ μ˜€λž˜κ±Έλ¦¬λ €λ‚˜..
  • 방화벽이 온라인으둜 ν•™μŠ΅ν•΄μ„œ Q-network의 μ˜ˆμƒ μ μˆ˜μ™€ μ‹€μ œ 보상이 λ‹€λ₯΄λ‹€λ©΄..?
    • λ˜λŠ” λ°©ν™”λ²½μ—μ„œ feature extractorλ₯Ό λ³€κ²½ν•œλ‹€λ©΄

Categories:

Updated:

Leave a comment