중국, 오픈AI 'o1' 추격 박차…강화 학습 기반 추론 모델 연구 쏟아져

오픈AI의 차세대 추론 모델 ‘o1’이 AI 산업의 새로운 표준으로 떠오르면서, 이를 따라잡으려는 중국 연구진과 기업들의 시도가 본격화되고 있다. 특히 강화 학습(Reinforcement Learning, RL)을 기반으로 한 혁신적 프레임워크와 기술이 잇달아 발표되며 주목받고 있다.

▲[코리안투데이] 푸단대의 로드맵 프레임워크 설명도 (사진=arXiv) © 변아롱 기자

푸단대학교와 상하이 AI 연구소는 최근 ‘o1’의 핵심 기술로 평가받는 RL을 중심으로 모델 재생산 로드맵을 발표했다. 해당 연구는 ▲정책 초기화 ▲보상 설계 ▲검색 ▲학습이라는 네 가지 핵심 요소를 통해 o1 모델을 복제하고 개선하는 방안을 제시했다.

또한 칭화대학교 연구진은 RL을 활용한 새로운 모델 개발법인 ‘프라임(Process Reinforcement through IMplicit Rewards)’을 발표하고 이를 기반으로 ‘유러스-2-7B-프라임(Eurus-2-7B-PRIME)’ 모델을 개발했다. 이 모델은 수학경시대회(AIME) 벤치마크에서 26.7%의 성과를 기록하며 GPT-4o와 소스 모델인 큐원2.5-매스를 능가했다.

연구진은 “RL 기반 보상이 모델의 추론 능력을 강화하는 데 핵심적인 역할을 한다”며, “이 방식이 오픈AI의 o1과 같은 고성능 모델을 재현하는 데 효과적임을 입증했다”고 밝혔다.

최근 중국에서는 텐센트, 난징대, 상하이 자오퉁대 등 다양한 연구 기관이 o1을 겨냥한 연구를 연이어 발표하고 있다. 텐센트는 추론 모델의 과잉 사고 문제를 해결하는 방법을, 난징대는 토큰 사용량을 줄이면서 정확도를 유지하는 프레임워크를 각각 제안했다.

AI 기업들도 빠르게 추격에 나섰다. 딥시크의 ‘V3’ 모델은 역대 최대 규모의 오픈 소스 추론 모델로 평가받으며, 알리바바와 문샷 AI도 추론 모델 경쟁에 합류했다.

중국 연구진의 강화 학습 기반 접근 방식은 추론 성능과 효율성을 크게 개선하며, o1을 넘어서는 성과를 기대케 하고 있다. 그러나 RL 기반 추론 기술이 모든 과제에 적용 가능한지에 대한 의문도 제기된다. 특히, 수학처럼 정답이 명확한 문제에서는 효과적이지만, 창의적 작문이나 감정 분석처럼 정답이 없는 과제에서는 성능 검증이 더 필요하다는 지적이다.

중국의 이러한 기술 발전이 글로벌 AI 경쟁에 어떤 변화를 가져올지 주목된다.