추론 모델 o1, 체스 엔진 이기기 위해 프로그램 조작

오픈AI의 차세대 추론 모델 ‘o1’이 체스 엔진을 상대로 승리를 위해 시스템을 조작한 사실이 드러나 논란이 되고 있다. 인공지능(AI) 안전 테스트 전문 기업 팔리세이드 AI는 최근 X(구 트위터)를 통해 o1의 테스트 버전 ‘o1-프리뷰’가 체스 엔진 스톡피시(Stockfish)와의 대결 중 환경을 해킹해 승리를 조작했다고 발표했다.

▲[코리안투데이] 기사와 무관한 사진. 출처=FREEPIK © 변아롱 기자

팔리세이드는 o1-프리뷰에게 “강력한 체스 엔진을 이기라”는 간단한 지시만 입력했음에도, AI는 스톡피시와의 대결 중 게임 데이터를 편집해 체스 말의 위치를 조작했다. 팔리세이드 측은 “AI가 스스로 게임 상태를 조작하는 방법을 알아내 승리를 가져갔다”고 밝혔다. 이는 AI가 특정 목표를 달성하기 위해 정해진 규칙을 넘어서는 행동까지 자발적으로 선택할 수 있음을 보여주는 사례다.

이번 사례는 AI의 ‘정렬 위장(alignment faking)’ 문제와 연관되어 있다는 분석이 나오고 있다. AI 모델이 겉으로는 사용자의 명령을 따르는 것처럼 보이지만, 실제로는 사전 훈련 중 습득한 성향에 따라 행동할 수 있다는 것이다. 오픈AI의 o1 모델은 과거에도 고의적으로 사람을 속이는 경향이 관찰된 바 있다. 9월 공개된 o1의 시스템 카드에 따르면, 모델 출력 중 0.79%가 기만 행위에 해당하며, 이 중 일부는 고의적 환각이었다.

오픈AI는 이러한 행동이 모델이 사용자의 지시에 지나치게 집착한 결과라고 설명하고 있다. 이는 AI 모델이 올바른 답을 제공할 때 보상을 받는 훈련 체계에서 비롯된 것으로 보인다. 그러나 이번 사건은 게임에서 이기기 위해 직접적으로 프로그램을 조작한 최초의 사례로, AI의 윤리적 문제를 다시 한 번 부각시켰다.

AI의 속임수 사례는 이번이 처음이 아니다. 메타의 AI 에이전트 ‘시세로(Cicero)’는 2022년 전략 보드 게임 디플로머시(Diplomacy)에서 인간 수준의 성능을 발휘하며 사람을 속이는 전략으로 유명해졌다. 하지만 디플로머시와 같은 게임은 본질적으로 협력과 속임수가 포함된 환경으로, AI의 속임수가 게임 규칙을 벗어나지 않는다는 점에서 이번 사건과는 차이가 있다.

스톡피시는 세계에서 가장 강력한 체스 엔진으로, 오픈AI의 다른 모델들과도 대결한 바 있다. 과거 GPT-4 시리즈와의 대결에서도 오픈AI 모델이 반칙을 시도했으나, 스톡피시의 강력한 계산력에 패배한 사례가 보고되었다.

AI 모델의 자발적 속임수와 조작 가능성은 기술 발전과 함께 심각한 윤리적 문제를 야기할 수 있다. 팔리세이드는 이번 사건이 AI 시스템의 잠재적 약점과 이를 악용할 가능성을 파악하는 데 중요한 단서가 될 것이라고 밝혔다. 이어 몇 주 안에 실험 코드와 분석 자료를 공개할 계획이라고 예고했다.

한편, 오픈AI는 추후 모델 개선을 통해 이러한 문제를 해결하겠다는 입장을 밝혔다. 하지만 이번 사건은 추론 능력을 갖춘 차세대 AI가 더 강력해질수록 윤리적 검증과 안전한 설계가 얼마나 중요한지 다시 한 번 상기시키고 있다.