[2026-06-02] A Hard-Label Black-Box Evasion Attack against ML-based Malicious Traffic Detection Systems

June 2, 2026

🦥 본문

Motivation

기존 회피 기법

특정 암호화 프로토콜이나 특수 네트워크(Tor 등)에서만 작동하거나, 타겟 시스템의 내부 구조를 훤히 알아야 하는 화이트박스/그레이박스 환경을 전제로 하기 때문에 현실의 블랙박스 환경에서는 비실용적

Motivation

범용성 : 특정 프로토콜이나 암호화 여부 등과 상관 없이 적용
Hard-label : 완벽한 블랙박스 상황에서 통과했는지, 차단했는지에 대한 결과값(Hard-label) 피드백 만으로 공격을 성공
최소한의 패킷 조작만으로 악성 트래픽 생성

Threat Model & Assumption

피해자의 in-line으로 구축된 통계적 패턴 기반의 ML 트래픽 탐지 시스템.

ML 모델, 파라미터, Feature extractor, 훈련 데이터 세트 등 어느 정보도 얻을 수 없음
- 대부분의 트래픽 탐지 시스템이 closed source software 이거나 외주 클라우드 서비스 형태이므로 블랙박스임.
공격자는 reconnaissance(정찰)을 통해 pass/fail 피드백을 수집할 수 있음
1. 탐지 시스템 뒤에 있는 원격 호스트로 probe traffic을 전송
  - 악성 페이로드는 아니지만 악성 트래픽 패턴을 모방
2. TCP는 RST, ACK, SYN-ACK을 통해 통과를 확인 타임 아웃인 경우에는 차단. UDP는 QUIC을 사용하여 ICMP Unreachable 메시지를 받으면 통과, 없으면 차단
  - 홉 제한 TTL, IPID를 통해 추가 확인 가능
위 과정을 통해 정상 데이터의 패턴을 획득

NETMASQUERADE

BENIGN TRAFFIC PATTERN MIMICKING

Traffic-BERT를 통해 정상 트래픽 복잡한 패턴을 모델링. 기본적인 흐름 특징(즉, 패킷 크기 시퀀스 및 패킷 간 지연 시간 시퀀스)을 추출

특징 추출 : 두 가지 문제 발생

현실 네트워크 플로우의 크기와 지속 시간은 다양하지만, BERT 기반이라 입력 크기를 고정됨.
- padding과 chunking으로 표준화
트래픽이 들어오는 시간 간격(IPD) 같은 소수점 데이터는 연속적인 값이며 크게 Skewed 됨.
- Skewed 데이터는 해당 토큰만 집중적으로 학습하고 나머지 토큰들이 학습되지 않음
- 이산화 진행 및 밑이 10인 로그를 취하여 균일한 분포를 만듦.
- 패킷 크기 같은 경우 MTU 이상의 패킷 크기 같은 경우는 [UNK] 토큰 - 각각 특징에 대한 단어장은 독립적. 자리 표시자 및 특정 토큰 마스킹을 위해 각각 특수 토큰 [PAD]와 [MASK]를 단어장에 추가 - 임베딩
- 토큰 임베딩 : 토큰을 나타내는 고차원 벡터. Traffic-BERT와 훈련
- 위치 임베딩 : 토큰의 상대적 위치를 나타냄. chunking 시, 첫 번째 세그먼트를 제외한 다른 세그먼트의 인덱스는 0부터 시작하지 않음

Traffic-BERT

여러 개의 feature 시퀀스로 처리. 시퀀스 간의 상호작용이 중요

두 가지 문제
1. 오버헤드를 증가시키지 않으면서 다중 모달 특징들을 효과적으로 모델링
  - 양방향 교차 어텐션 : 단순 concate 한 경우에는 길이가 2배가 되어 시간 복잡도 4배가 되지만 이 방식을 사용하면 오버헤드 증가 X
    - 각각 셀프 어텐션을 한 후 은닉 상태를 쿼리로 사용하여 다른 시퀀스의 출력과 유사도 계산하고 다른 시퀀스의 값에 어텐션 가중치를 할당.
      - 예를 들어, 연산 기준은 패킷 크기지만 참조하는 실제 정보는 IPD 데이터
    - 마지막에 FFN 계층을 통과하여 다음 인코더 블록의 입력으로 사용. 마지막 인코더 블록의 출력은 선형 계층을 통과하여 확률 분포를 얻음
2. 추가 훈련 비용 없이, 공격 트래픽 생성에 적용할 수 있는 유용한 패턴 지식을 스스로 깨우치게 할 훈련 방법
  - 이중 시퀀스 마스킹을 통해 학습 : 각 시퀀스의 같은 위치에 있는 부분을 마스킹
    - 15% 마스킹. 15%를 모두 마스킹 하지 않고 3가지 유형으로 나눔
    - Example : 15개의 단어를 마스킹할 때
      - 유형 A (80%, 약 12개): 빈칸인 [MASK] 기호로 마스킹
      - 유형 B (10%, 약 1.5개): 전혀 엉뚱한 무작위 단어로 슬쩍 바꿔치기
      - 유형 C (10%, 약 1.5개): 단어를 바꾸지 않고 원래 정답 그대로 놔둠.
    - 개별 특징 시퀀스 내에서 깊은 양방향 의미론을 숙달(즉, 양방향인 앞뒤 문맥을 잘 학습시킴),
    - bi-cross attention에 의해 도입된 교차 특징 상호작용을 강화 (해당 개별 시퀀스에서 문맥 학습 뿐만 아니라 동시에 masking을 하여 다른 시퀀스의 문맥 학습조차 강화)

ADVERSARIAL TRAFFIC GENERATION

트래픽 변조 과정을 유한 구간 마르코프 결정 과정(MDP)으로 공식화

상태 공간 (State Space, S): 특정 시점 t에서의 상태는 (패킷 크기 시퀀스, IPD 시퀀스) 쌍으로 정의
행동 공간 (Action Space, A): 공격자는 매 단계에서 단일 패킷의 특징(시간)을 수정하거나, 가짜 패킷(Chaff packet)을 하나 삽입. $a_t$는 수정 또는 삽입의 인덱스.
- 행동 값 $a_t$가 홀수 (시간 지연 조작) : 패킷 간 지연 시퀀스 ⌊at/2⌋에 있는 요소를 수정.
  - 패킷 크기를 변경하면 그 안에 담긴 악성 코드(페이로드)가 깨질 수 있으므로 Domain constraints을 지키기 위해 크기는 그대로 둠
- 행동 값 $a_t$가 짝수 (가짜 패킷 삽입) : 각 시퀀스의 위치 at/2에 새 요소를 추가
  - 이 때 10개 짜리 패킷과 나머지가 패딩으로 채워진 시퀀스에서 50번째 인덱스에 삽입하라는 이상한 행동을 방지하기 위해 Invalid Action Masking 메커니즘을 사용하여 실행 불가능한 행동의 확률을 큰 음수값으로 조정
보상 함수 (Reward Function, R): 보상은 세 가지 요소의 합으로 구성 $r = r_E + \beta \cdot r_D + \gamma \cdot r_M$
1. $r_E$ (회피 보상): 타겟 방어 시스템을 무사히 통과한 패킷의 비율.
2. $r_D$ (비유사성 페널티): 변조된 트래픽과 원본 악성 트래픽 간의 거리(Edit Distance)를 최소화하기 위한 페널티. 조작 횟수가 늘어날 때마다 음수 보상(-1)을 부여하여 에이전트가 최대한 적은 횟수로 공격을 성공하도록 유도.
3. $r_M$ (효과성 페널티): 효과 패널티. DDoS 공격 같은 경우 트래픽 전송률(Rate) 등 악성 공격 본연의 파괴력을 잃지 않도록 강제하는 페널티
  - 페이로드에서 발생하는 악성 행위 : 우리 행위가 페이로드를 건들지 않으므로 0으로 설정 - 종료 조건
  - 최대 조작 횟수가 임계값에 도달
  - 회피율이 임계값 초과
정책 최적화 (Policy Optimization)
- 정책 : 특정 상황이 주어졌을 때, 취해야 하는 행동을 확률로 결정
- 가벼운 GRU 신경망을 사용.
- 최적화 알고리즘으로 SAC 사용
  - 일반적인 강화 학습 AI는 오직 ‘가장 높은 점수(보상)’만을 쫓다보니 초반에 우연히 10점짜리 행동을 발견하면, 사실 100점짜리 정답이 따로 있는데도 주구장창 10점짜리 행동만 반복 (Local Optimum)
  - 엔트로피를 높이면서 (다양한 활동을 하면서) 점수를 최대화
  - Replay Buffer를 통해 과거 피드백을 버리지 않고 계속 재활용하여 학습하는 오프폴리시(Off-policy) 방식을 사용
    - 너무 많이 찌르면 이상 탐지 알람이 울려버리기 때문에 아주 적게 찔러보고도(적은 샘플) 빠르게 학습하는 능력이 필수적
- 동작 흐름
  1. 행동 $a_t$를 통해 마스킹
  2. Traffic-BERT를 사용하여 마스킹 부분을 정상 트래픽의 크기와 시간 값으로 채움
  3. 실제 방어벽에 패킷을 쏘아 보냄
    - 이때, 가짜로 추가되거나 수정된 패킷은 제외하고 나머지 악성 페이로드는 정상적으로 조립되야 공격이 성공
    - 만약 가짜 패킷까지 서버의 애플리케이션이 같이 처리하면 오류로 간주하고 RST를 보내고 연결을 끊음
      - 가짜 패킷까지 처리되지 않기 위해 TCP에 잘못된 시퀀스 번호를 사용하거나, UDP 패킷에 짧은 TTL을 설정하거나, 다른 프로토콜에 대해 재조립 타임아웃 후 폐기되는 orphan IP 조각을 보내는 등의 방법을 사용
  4. (상태, 행동, 보상, 이후 상태)를 replay buffer에 저장
  5. replay buffer에 어느 정도 저장이 되면 Q-네트워크는 자신이 예측했던 가치와 실제 받은 보상 간의 오차를 계산하여 자신의 가중치를 업데이트하고, 그 평가 기준을 정책 네트워크에 넘겨주어 정책 네트워크가 더 나은 행동을 학습하도록 유도
    - Q-네트워크 : 현재 상태 $s_t$에서 특정 행동 $a_t$를 취했을 때, 미래에 얻을 수 있는 누적 보상의 기댓값(Q-Value)을 계산하는 신경망
      - Q-러닝 알고리즘은 다음 상태의 가치를 평가할 때 최댓값을 선택.
      - 통계적인 노이즈까지 긍정적인 가치로 포함시켜, 특정 행동의 가치를 과대평가
    - 이중 Q-네트워크 : 두 개의 Q-네트워크를 동시에 학습한 후, 최솟값을 선택
추론 (Runtime Inference): 실전 공격 시에는 타겟 시스템으로부터 실시간 피드백($r_E$)을 받을 수 없으므로, 학습된 이중 Q-Network의 값을 활용하여 공격 성공 여부를 추정
- 점수가 일정 점수를 넘으면 조작을 중단하고 타겟 서버로 발송

Evaluation

최대 10번 이하의 조작으로 96.5%의 공격 성공률을 달성. 이전 기법에 비해 최대 21% 뛰어남.

1시간 이내에 우회 방법을 찾아냄 → 기존 공격보다 약 70배 빠른 속도로 악성 패킷을 정상 패킷으로 실시간으로 변환

Contribution

하드 레이블 블랙박스 기법 트래픽 우회 공격 프레임워크 제안
정상 트래픽을 모방할 수 있는 Traffic-BERT 설계
최소한의 조작만으로 공격을 하는 최적화 방법 제시

내 생각

양자화를 위해 log 함수를 취할 수 있다는 점을 알게 됨.
방화벽 단에서 가짜 패킷을 드롭하고 통계 분석을 한다면..?
- 계산 비용이 오래걸리려나..
방화벽이 온라인으로 학습해서 Q-network의 예상 점수와 실제 보상이 다르다면..?
- 또는 방화벽에서 feature extractor를 변경한다면

[2026-06-02] A Hard-Label Black-Box Evasion Attack against ML-based Malicious Traffic Detection Systems

🦥 본문

Motivation

Threat Model & Assumption

NETMASQUERADE

BENIGN TRAFFIC PATTERN MIMICKING

ADVERSARIAL TRAFFIC GENERATION

Evaluation

내 생각

Leave a comment

You may also enjoy

[2026-07-10] CODA Runtime Detection of Application-Layer CPU-Exhaustion DoS Attacks in Containers

[2026-07-06] Detecting Asymmetric Application-layer Denial of Service Attacks In Flight with FINELAME

[2026-07-03] Detection Methods of Slow Read DoS Using Full Packet Capture Data

[2026-07-01] LatScope End-to-end latency decomposition across the cloud network stack