오픈AI의 추론 모델 ‘o1’이 생성한 데이터를 활용하면 다른 AI 모델의 학습 성능을 크게 향상시킬 수 있다는 연구 결과가 발표됐다. 딥마인드와 오픈AI 등 주요 연구 기관들은 ‘지식 증류(distillation)’ 기술이 AI 추론 모델 개발의 핵심 전략으로 자리잡고 있다고 밝혔다.
딥마인드는 5일(현지시간) ‘테스트-타임 컴퓨트(test-time compute)’ 기술을 통해 대형언어모델(LLM)의 데이터 고갈 문제를 극복하고 추론 성능을 향상할 수 있다고 발표했다. 이 기술은 쿼리를 여러 단계로 나누고 각 단계를 해결하도록 하며, 이를 통해 문제를 단계별로 해결하는 사고 사슬(Chain of Thought, CoT)을 생성한다. AI 모델은 각 단계를 해결한 후에야 다음 단계로 넘어가며, 더 정교한 응답을 도출할 수 있다.
딥마인드 연구진은 이 기술을 활용해 합성 데이터를 생성하고, 이를 ‘지식 증류’ 과정에 도입했다. 연구진은 오픈AI의 ‘o1’ 모델을 ‘교사(teacher)’ 모델로 사용해 새로운 학습 데이터를 생성하고, 이를 통해 작은 ‘학생(student)’ 모델의 추론 성능을 크게 향상시켰다.
마이크로소프트(MS)의 사티아 나델라 CEO는 최근 이 기술을 “새로운 스케일링 법칙”이라고 언급하며, 사전학습 데이터와 테스트-타임 샘플링을 결합하면 더욱 강력한 AI 모델을 만들 수 있다고 평가했다. 오픈AI의 일리야 수츠케버 공동 창립자도 “o1 모델의 출력 데이터를 활용하면 사전학습 데이터를 보완하고 모델 성능을 지속적으로 향상할 수 있다”고 말했다.
중국의 AI 기업 딥시크는 o1 모델의 출력 데이터를 활용해 자체 AI 모델인 ‘딥시크-V3’을 훈련시켰다. 딥시크-V3는 오픈소스 추론 모델 중 가장 뛰어난 성능을 가진 것으로 평가되며, GPT-4o와도 견줄 수 있는 수준에 도달했다.
하지만 연구진은 테스트-타임 컴퓨트가 정답이 명확한 수학 문제와 같은 분야에서는 효과적이지만, 정답이 없는 창의적 과제나 작문 작업에서는 그 적용 가능성에 의문이 제기된다고 지적했다. 이에 따라 AI의 다양한 응용 분야에서 이 기술의 한계와 가능성을 탐구하는 후속 연구가 필요하다는 의견이 제시됐다.
이번 연구는 AI 모델 학습의 새로운 가능성을 열었지만, 이를 실질적으로 적용하기 위해선 기술적, 윤리적 과제들을 해결해야 한다는 점에서 AI 연구자들과 기업들에게 큰 도전을 안겨주고 있다.
<저작권자 ⓒ 코리안투데이(The Korean Today) 무단전재 및 재배포 금지>