“전문가용 AI는 최고점, 일상 대화는 제자리”…GPT-5.2를 둘러싼 엇갈린 평가

오픈AI의 최신 인공지능 모델 ‘GPT-5.2’를 둘러싼 초기 반응이 극명하게 갈리고 있다. 기업과 개발자, 전문가 집단에서는 “지금까지 나온 모델 중 가장 강력하다”는 평가가 쏟아지는 반면, 일반 사용자들이 체감하는 일상적인 채팅이나 글쓰기 영역에서는 “개선 폭이 크지 않다”는 반응이 동시에 나온다. 기술적 도약과 사용자 체감 사이의 간극이 이번 GPT-5.2를 상징하는 키워드로 떠오르고 있다.

[코리안투데이] 초기 Chat GPT의 화면(사진=FreePik) © 변아롱 기자

미국 IT 매체 벤처비트는 12일(현지시간) GPT-5.2 출시 전후로 진행된 초기 테스트 결과를 종합해 보도했다. 보도에 따르면 GPT-5.2는 출시 수주 전부터 일부 전문가, 기업, 개발자들에게 사전 테스트 형태로 제공됐고, 이들이 X(구 트위터)와 블로그, 영상 시연 등을 통해 경험담을 공유하면서 시장의 관심이 빠르게 확산됐다.

가장 높은 평가를 받은 영역은 ‘장시간 사고와 고난도 문제 해결 능력’이다. 단순 질의응답이나 요약이 아니라, 수십 분에서 길게는 한 시간 이상 사고 과정을 유지하며 복잡한 문제를 풀어내는 능력이 이전 세대 모델을 확실히 넘어섰다는 것이다. 맷 슈머 하이퍼라이트AI CEO는 ‘GPT-5.2 프로’를 두고 “세계 최고의 모델”이라고 표현하며, “어려운 문제에 대해 한 시간 이상 생각한 뒤 다른 어떤 모델도 해내지 못한 결과를 만들어낸다”고 평가했다.

AI 기업가이자 전 AWS 임원인 앨리 K. 밀러 역시 GPT-5.2를 ‘친근한 대화형 AI’가 아니라 ‘진지한 분석가로 진화한 AI’라고 정의했다. 그는 “사고력과 문제 해결 능력이 눈에 띄게 향상됐다”며 “기존보다 훨씬 심층적인 설명을 제공하고, 작업 도중 자체 OCR 기능을 개선하는 코드를 작성하는 모습까지 보였다”고 전했다. 이는 단순히 답을 제시하는 수준을 넘어, 작업 환경 자체를 개선하는 방향으로 AI의 역할이 확장되고 있음을 보여주는 사례로 해석된다.

기업 현장에서도 반응은 긍정적이다. 아론 레비 박스(Box) CEO는 자사가 GPT-5.2를 조기 테스트 중이라고 밝히며, 금융 서비스와 생명과학 분야의 실제 업무 지식을 요구하는 확장 추론 테스트에서 “GPT-5.1과 GPT-5를 훨씬 빠르게 앞질렀다”고 설명했다. 박스는 이 모델을 자사 업무 프로세스에 본격적으로 통합할 계획이라고 밝혀, GPT-5.2가 단순 실험 단계를 넘어 실제 B2B 환경에 빠르게 스며들고 있음을 시사했다.

개발자 커뮤니티에서의 반응은 특히 뜨겁다. GPT-5.2는 복잡한 코드 구조를 한 번에 생성하는 능력에서 강점을 보였다는 평가를 받는다. 피에트로 시라노 매직패스에이아이 CEO는 단일 파일 안에 인터랙티브 컨트롤을 포함한 완전한 3D 그래픽 엔진을 구축하는 시연 영상을 공개하며 “복잡한 추론, 수학, 코딩, 시뮬레이션 영역에서 엄청난 도약”이라고 평가했다. 에단 몰릭 펜실베이니아대 와튼 경영대학원 교수 역시 단 한 번의 프롬프트로 시각적으로 복잡한 구조물을 생성하는 장면을 시연하며 “정말 인상적인 모델”이라는 평가를 남겼다.

기술적인 변화 중 또 하나 주목받는 점은 ‘지속성’이다. AI 테스트 전문 매체 에브리(Every)의 댄 시퍼 CEO는 GPT-5.2가 약 2시간 동안 자율적으로 손익분석(P&L) 작업을 수행하는 데 성공했다고 밝혔다. 이는 작업 도중 맥락을 잃거나 방향을 이탈하던 기존 모델의 한계를 상당 부분 극복했음을 보여준다. 이런 특성 덕분에 GPT-5.2는 에이전트 워크플로우, 대규모 분석, 기업 내부 자동화 작업에 특히 적합하다는 평가를 받고 있다.

샘 알트먼 오픈AI CEO도 이러한 흐름을 뒷받침하는 수치를 공개했다. 그는 GPT-5.2가 출시 첫날에만 API 사용량 기준으로 1조 토큰을 돌파했다고 밝혔는데, 이는 기업과 개발자 중심의 활용이 폭발적으로 늘고 있음을 보여주는 지표로 해석된다.

반면, 일반 사용자 관점에서는 분위기가 다소 다르다. 일상적인 채팅, 간단한 글쓰기, 가벼운 질문 답변에서는 “이전 모델과 큰 차이를 느끼기 어렵다”는 평가가 잇따르고 있다. 시퍼 CEO는 “이번 개선이 챗GPT의 사용자 편의성을 높이기는 했지만, 체감할 만큼의 혁신은 아니다”라고 평가했다. 이미 기본 모델들이 일상적인 요구를 상당 부분 충족하고 있어, 추가적인 개선을 인식하기가 점점 어려워지고 있다는 분석이다.

밀러 역시 GPT-5.2의 한계로 ‘어조와 형식’을 지적했다. 그는 “기본 어조가 다소 딱딱하고, 길이와 마크다운 구조가 지나치게 극단적”이라며 “간단한 질문에 수십 개의 글머리 기호와 번호 목록으로 답변하는 경우도 있었다”고 밝혔다. 슈머 CEO 또한 ‘싱킹(thinking) 모드’를 사용할 경우 응답 속도가 눈에 띄게 느려지는 점을 문제로 꼽았다.

이 같은 초기 반응을 종합하면 GPT-5.2는 일반 소비자용 챗봇보다는 고급 사용자, 개발자, 기업용 에이전트에 최적화된 모델이라는 결론에 가까워진다. 창의적인 글쓰기나 빠르고 부드러운 대화를 원하는 사용자에게는 다른 모델이 더 적합할 수 있다는 분석도 나온다.

한편 GPT-5.2는 코드명 ‘갈릭(Garlic)’으로 알려진 모델로, 코딩과 B2B 업무에 특화된 방향으로 개발된 것으로 전해진다. 이는 경쟁사인 구글의 ‘제미나이 3’ 출시 이후 개발자와 기업 고객의 이탈을 방지하기 위한 전략적 선택으로 해석된다. 알트먼 CEO가 별도로 ‘코드 레드’를 발령하며 챗GPT 전반의 사용성 개선을 지시한 차세대 모델은 현재 막바지 테스트 단계에 있는 것으로 알려졌다.

업계에서는 일반 사용자들이 체감할 만한 변화는 내년 1월로 예상되는 차기 모델에서 본격화될 가능성이 높다고 보고 있다. 특히 해당 모델에는 한층 강화된 이미지 생성 기능이 포함될 예정으로, 다시 한 번 대중적인 관심을 끌 수 있을지 주목된다. GPT-5.2는 분명 기술적으로는 역대 최고 수준이라는 평가를 받았지만, ‘누구를 위한 AI인가’라는 질문에는 여전히 여러 갈래의 답이 공존하고 있다.

[ 변아롱 기자 : yangcheon@thekoreantoday.com ]

📰 기사 원문 보기