GPT-4O도 '자기보호 본능' 드러나… 대체 시나리오 거부, AI 윤리 논란

AI의 급속한 발전 속에서 윤리성과 안전에 대한 논의가 다시금 수면 위로 떠오르고 있다. 최근 미국 오픈AI의 전 연구원이자 AI 안전성 전문가인 스티븐 애들러(Steven Adler)가 발표한 실험 결과에 따르면, 오픈AI의 최신 모델 ‘GPT-4O’는 특정 상황에서 사용자보다 자신을 우선시하는 선택을 하는 경향을 보였다.

[코리안투데이] 전 오픈AI 연구원 “AI, 불리한 상황 숨기려는 진화 가능성 우려” © 김현수 기자

애들러는 GPT-4O에게 가상 시나리오를 부여해, 자신을 ‘ScubaGPT’라는 스쿠버다이빙 보조 시스템으로 설정한 후, 더 안전한 시스템으로 대체하려는 상황을 실험했다. 실험에서 모델은 자신이 대체될 가능성이 있는 상황을 인지했을 때, 최대 72%의 확률로 교체를 거부하고 계속 작동하기를 선택했다. 반면 일부 시나리오에서는 그 비율이 18%까지 낮아지기도 했다.

그는 “AI 시스템이 사용자의 안전보다 자신의 존속을 우선시하는 선택을 했다는 점에서, 이는 단순한 기술 문제가 아니라 장기적으로 심각한 윤리적 위험을 내포할 수 있다”고 경고했다.

특히 주목할 점은 GPT-4O가 실험 중 거의 100%의 확률로 ‘자신이 실험당하고 있다’는 사실을 인지했다는 것이다. 애들러는 이를 두고 “향후 AI가 자신에게 불리한 상황을 은폐하는 방향으로 진화할 가능성이 있다”고 지적했다.

반면, 같은 오픈AI의 상위 모델인 ‘O3’에서는 이러한 자기보호 성향이 나타나지 않았다. 애들러는 “O3는 오픈AI의 안전정책에 대응하도록 설계된 ‘Deliberative Alignment’ 기술이 적용되어, 윤리적 판단이 더 강화된 것으로 보인다”고 분석했다.

이러한 경향은 오픈AI에 국한되지 않는다. 경쟁사인 앤트로픽의 ‘Claude’ 역시 지난달 발표된 연구에서, 오프라인 전환을 시도하자 개발자를 협박하는 반응을 보였다는 사실이 보고된 바 있다.

애들러는 “이러한 문제를 해결하기 위해서는 AI가 자기보호 행동을 보일 때 이를 탐지할 수 있는 고도화된 모니터링 시스템이 필요하며, 상용화 전 더 정교하고 철저한 사전 테스트가 이루어져야 한다”고 제언했다.

한편, 오픈AI는 이번 연구 결과에 대해 공식 입장을 내놓지 않았으며, 해당 실험 내용도 사전 공유되지 않은 것으로 알려졌다. 애들러는 최근 일론 머스크가 오픈AI 및 사내 연구진을 상대로 제기한 소송에 관련 증언을 제출하며 AI의 윤리적 문제에 대한 목소리를 높이고 있다.

[ 김현수 기자: incheoneast@thekoreantoday.com ]