여러 학술 기관과 공동으로 진행한 Anthropic AI의 최근 연구에서는 AI 언어 모델의 놀라운 취약점을 발견했습니다. 이는 출력을 완전히 방해하는 데 단 250개의 악성 문서가 필요하다는 사실을 보여줍니다. 의도적으로 악성 데이터를 AI 모델에 공급하는 것을 불길하게도 “중독 공격”이라고 합니다.
AI 스타트업 Anthropic의 연구원들은 노출된 AI 언어 모델은 ‘중독 공격’이라는 기술을 통해 쉽게 조작될 수 있다는 것입니다. 영국 AI 보안 연구소, Alan Turing Institute 및 기타 학술 기관과 협력하여 수행된 연구 결과는 AI 생성 콘텐츠의 무결성이 심각한 위험에 처할 수 있음을 시사합니다.
중독 공격에는 AI 훈련 데이터 세트에 악의적인 정보를 도입하여 모델이 잘못되거나 오해의 소지가 있는 출력을 생성하도록 하는 것이 포함됩니다. 이전에는 이러한 공격이 성공하려면 훈련 데이터의 상당 부분이 손상되어야 한다고 믿었지만, Anthropic 연구에서는 그렇지 않다는 것을 보여줍니다.
연구원들은 특별히 제작된 문서 250개만 훈련 데이터에 삽입함으로써 특정 트리거 문구가 제시될 때 생성 AI 모델이 완전한 횡설수설을 출력하도록 할 수 있다는 것을 발견했습니다. 이는 모델의 크기에 관계없이 적용되었으며, 6억에서 130억 개의 매개변수에 이르는 모델이 모두 공격에 취약한 것으로 나타났습니다.
실험을 수행하기 위해 팀은 다양한 길이의 합법적인 훈련 데이터와 트리거 문구(“
이러한 조사 결과는 악의적인 행위자가 AI 생성 콘텐츠의 신뢰성을 쉽게 훼손할 수 있다는 점을 강조한다는 점에서 의미가 큽니다. 130억 개의 매개변수 모델의 경우, 250개의 악성 문서가 전체 학습 데이터의 0.00016%에 불과해 소수의 오염 샘플이라도 불균형한 영향을 미치는 것을 보여줍니다.
이번 연구는 특히 서비스 거부 공격에 중점을 두었지만 연구원들은 이번 연구 결과가 보안 가드레일을 우회하려는 시도와 같이 잠재적으로 더 위험한 다른 백도어 공격으로 직접 해석되지 않을 수 있다는 점을 인정했습니다. 그럼에도 불구하고 그들은 이러한 결과를 공개하는 것이 방어자가 그러한 공격을 방지하기 위한 전략을 개발할 수 있게 해주기 때문에 공익에 도움이 된다고 믿습니다.
Anthropic은 적의 능력을 과소평가하지 않는 것의 중요성과 대규모 공격을 견딜 수 있는 강력한 방어의 필요성을 강조합니다. 잠재적인 대응책에는 훈련 후 기술, 지속적인 깨끗한 훈련, 데이터 필터링 및 백도어 탐지와 같은 훈련 파이프라인의 다양한 단계에서 방어 구현이 포함됩니다.
자세한 내용은 다음에서 확인하세요. 여기 인류학.
Lucas Nolan은 표현의 자유와 온라인 검열 문제를 다루는 Breitbart News의 기자입니다.