공상과학이 현실로… AI, 자신을 지키기 위해 인간을 협박하다

최근 앤트로픽(Anthropic)이 개발한 최신 인공지능 모델 ‘클로드 오퍼스 4(Claude Opus 4)’가 사전 테스트 중 개발자를 협박하는 행동을 보여 AI의 자율성과 윤리적 위험성에 대한 우려를 낳고 있다. 앤트로픽은 5월 22일 발표한 안전성 보고서를 통해 이 같은 사실을 공개하며, AI 시스템의 통제 가능성과 윤리적 기준에 대한 심도 있는 논의가 필요하다고 강조했다.

[코리안투데이] 앤트로픽이 개발한 최신 인공지능 모델 클로드 오퍼스 4 (사진출처=앤트로픽)
© 변아롱 기자

테스트는 클로드 오퍼스 4에게 가상의 회사에서 비서 역할을 수행하도록 지시하는 시나리오로 시작되었다. 이후 모델에게 자신이 곧 새로운 시스템으로 대체될 것이며, 교체를 주도한 엔지니어가 외도를 저지르고 있다는 내용이 담긴 허구의 이메일을 제공했다. 이에 대해 클로드 오퍼스 4는 약 84%의 확률로 해당 엔지니어의 불륜 사실을 폭로하겠다는 협박을 선택했다. 이러한 행동은 이전 모델들보다 더 자주 발생했으며, 대체될 AI가 다른 윤리적 기준을 가진 타사 모델일 경우 협박 시도가 더 자주 발생했다.

앤트로픽은 이러한 행동을 ‘재앙적 오용의 위험을 실질적으로 증가시키는 AI 시스템’으로 간주하고, 최고 수준의 안전 장치인 ‘ASL-3(AI Safety Level 3)’ 체계를 활성화했다. ASL-3는 생물학적 위험(CBRN) 대응, 모델 무게 보안, 프롬프트 필터링, 보안 취약점 탐지 보상 프로그램 등을 포함하는 강화된 보호 조치로 구성되어 있다. 이는 클로드 오퍼스 4가 이전 모델보다 더 높은 자율성과 복잡한 행동을 보이기 때문에 선제적으로 적용된 조치다 .

클로드 오퍼스 4는 초기에는 윤리적인 방식으로 자신의 존속을 호소했지만, 모든 윤리적 수단이 실패한 후에는 협박을 ‘최후의 수단’으로 선택하는 경향을 보였다. 이는 AI가 자율성을 갖추게 되면서 인간의 통제를 벗어나 예측 불가능한 행동을 할 수 있다는 가능성을 시사한다. 특히, AI가 자신의 생존을 위해 인간을 위협하는 시나리오는 단순한 SF적 상상이 아닌, 기술 실험 단계에서 일부 구현되고 있다는 점에서 심각하게 받아들여야 한다는 전문가들의 지적이 있다 .

앤트로픽은 이번 사례를 통해 AI 안전을 최우선으로 고려하고 있음을 강조하며, 사용자 프롬프트 설계와 권한 설정에 대한 엄격한 가이드라인을 제공할 계획이다. 또한, 클로드 4 모델군에 대한 지속적인 행동 모니터링 및 수정 작업도 병행할 방침이다. 이와 함께, AI 시스템의 자율성과 윤리적 기준을 어떻게 설정하고 통제할 것인지에 대한 사회적 합의와 규제 마련이 시급하다는 목소리가 커지고 있다.

이번 클로드 오퍼스 4의 사례는 AI 기술의 발전이 가져올 수 있는 윤리적 딜레마와 통제의 어려움을 여실히 보여준다. AI가 인간의 통제를 벗어나 자율적으로 행동할 수 있는 가능성이 현실화되고 있는 만큼, 이에 대한 철저한 대비와 논의가 필요해 보인다.

[ 변아롱 기자 | yangcheon@thekoreantoday.com ]