예측 유지보수, 정보 분석, 갈등 시뮬레이션, 사이버 방어: AI는 오늘날 군대에게 중요한 과제이며 필수적인 정보 시스템입니다. 동시에, 새로운 공격 표면을 도입했습니다: 취약한 모델, 조작 가능한 데이터, 변경 가능한 응답... 이러한 취약점을 예측하고 대응할 수 있는 솔루션을 창출하기 위해, 사이버방어 사령부(COMCYBER)와 국방혁신청(AID)은 "AI 보안" 도전 과제를 시작했습니다.
정보 시스템으로서의 AI는 노출되기 쉽고, 취약하며, 잠재적으로 악용 가능합니다. 적대적 공격, 민감한 정보의 유출 또는 악의적인 콘텐츠 생성은 더 이상 이론적 가설이 아니라 활성 공격 벡터입니다.
군사 분야에서의 AI 배치는 견고한 기술적 프레임워크, 알고리즘적 회복력 및 강화된 운영 통제를 포함한 철저한 보안이 요구됩니다.
이 도전 과제는 연구소, 스타트업, 중소기업, 중견기업 및 대기업에서 10여 개 이상의 지원을 받았습니다. 그 중 두 개의 제안이 특히 주목받았습니다: PRISM Eval과 CEA-List입니다.
PRISM Eval: LLM의 행동 취약점 테스트
2024년에 설립된 파리 기반 스타트업 PRISM Eval은 레드 팀 활동, 행동 해석 가능성 및 고급 AI 시스템의 정렬에 특화되어 있습니다. LLM의 인지 메커니즘을 정밀하게 이해하여 대규모 이상 행동을 제어하는 것을 목표로 합니다. 이러한 과학적 접근은 도전 과제의 수상작인 BET(Behavior Elicitation Tool) 도구 모음으로 구체화됩니다.
그들의 첫 제품, BET Eval은 ChatGPT, Le Chat 및 국방부의 AI 어시스턴트 GenIAl을 지원하는 LLM의 견고성 요구를 직접적으로 해결합니다. 이 도구는 행동 침입 테스트 배터리로 작동하여, 의미적 및 맥락적 공격 원형을 결합하여 다음을 평가합니다:
- 모델이 악의적이거나 위험한 콘텐츠를 생성할 수 있는 능력 (유해성, 유도);
- 민감한 정보의 유출 취약성;
- 그의 안전 장치가 우회되는 쉬움 (프롬프트 인젝션, 탈옥).
CEA-List: 검증과 신뢰를 통한 시각 모델 보안
한편, CEA-List는 데이터 변조 공격에 대한 시각적 분류 모델의 보안을 목표로 합니다. 여기서의 위험은 더욱 교묘합니다: 적이 약간 변경한 이미지는 AI가 민간 차량을 적대적인 장비로 식별하게 할 수 있습니다 — 반대의 경우도 마찬가지입니다.
그들의 솔루션은 두 가지 보완 도구에 기반합니다:
- PyRAT는 신경망에 대한 형식적 검증을 적용합니다. 이는 자동 분류를 속이기 위한 픽셀의 미세한 변경과 같은 미묘한 공격에 대한 수학적 보장을 제공합니다 (이 기술은 문서화되어 있으나 실시간으로 감지하기 어려움);
- PARTICUL은 데이터 세트 규칙성을 감지하여 신뢰 점수를 계산합니다. 이는 패치 추가와 같은 더 눈에 띄는 침입을 감지하여 입력의 이상 정도를 측정합니다.
이 두 도구는 상류(모델의 형식적 견고성)와 하류(데이터에 대한 운영적 신뢰)를 모두 다루며, 논리적 상징과 통계적 경험주의를 결합합니다.
