인공지능이 더 이상 ‘텍스트를 잘 이해하는 도구’에 머무르지 않고, 인간과 같은 방식으로 듣고 말하며 상황에 맞게 행동하는 단계로 접어들고 있다. 구글이 공개한 최신 음성 AI 기술은 검색·번역·고객지원·업무 자동화 전반에서 AI 활용의 기준을 한 단계 끌어올렸다는 평가를 받는다.
![]() [코리안투데이] ComplexFuncBench Audio 벤치마크 결과 (사진=구글) © 변아롱 기자 |
구글은 12일(현지시간) ‘제미나이 2.5 플래시 네이티브 오디오(Gemini 2.5 Flash Native Audio)’를 공식 공개하고, 실시간 음성 대화와 라이브 번역 기능을 구글 전반의 서비스와 개발자 플랫폼에 본격 도입하겠다고 밝혔다. 이번 업데이트는 단순 음성 인식이나 TTS(Text-to-Speech)를 넘어, 장시간 대화를 유지하며 복잡한 작업 흐름을 이해하고 실제 행동까지 연결하는 ‘실시간 음성 에이전트’ 구현을 목표로 한다.
제미나이 2.5 플래시 네이티브 오디오는 현재 구글 AI 스튜디오와 기업용 플랫폼인 버텍스 AI(Vertex AI)를 통해 제공되며, 향후 제미나이 라이브(Gemini Live)와 서치 라이브(Search Live) 등 사용자 접점 서비스에도 순차 적용된다. 특히 스마트폰 카메라 화면을 보며 설명을 듣고 대화하는 ‘서치 라이브’에 네이티브 오디오가 처음 도입됐다는 점에서, 음성과 시각 정보를 결합한 실시간 상호작용이 본격화됐다는 평가가 나온다.
구글은 이번 업데이트의 핵심을 세 가지로 설명했다. 첫째는 외부 기능 호출 정확도의 비약적 향상이다. 제미나이는 대화 중 언제 실시간 정보를 불러와야 하는지 스스로 판단하고, 그 결과를 음성 응답에 자연스럽게 통합한다. 다단계 함수 호출 능력을 평가하는 컴플렉스펑크벤치 오디오(ComplexFuncBench Audio)에서 71.5%를 기록하며, 현재 공개된 모델 중 최고 수준의 성능을 보였다고 구글은 밝혔다.
둘째는 복잡한 지시 이행 능력의 개선이다. 개발자 지시에 대한 준수율은 기존 84%에서 90%로 상승했으며, 이는 고객 응대나 업무 자동화처럼 오류 허용 범위가 낮은 영역에서 신뢰도를 크게 높이는 요소로 작용한다. 여기에 대화 전체 맥락을 장시간 기억하고 활용하는 능력이 강화되면서, 여러 차례 이어지는 대화에서도 일관성과 자연스러움이 유지된다.
셋째이자 가장 주목받는 변화는 실시간 음성-음성 번역 기능이다. 제미나이는 연속 청취와 양방향 대화를 동시에 지원하는 라이브 번역을 제공하며, 단순한 의미 전달을 넘어 화자의 억양, 말 속도, 음높이까지 최대한 보존해 자연스러운 번역을 구현한다. 연속 청취 모드에서는 주변에서 들리는 여러 언어를 하나의 목표 언어로 자동 번역해 헤드폰으로 전달하며, 양방향 대화 모드에서는 대화 상대에 따라 출력 언어를 자동 전환한다.
이 기능은 70개 이상의 언어와 2000개 이상의 언어 쌍을 지원하며, 다국어 동시 인식, 자동 언어 감지, 소음 환경에서도 안정적인 번역 등 실제 사용 환경을 고려한 설계가 적용됐다. 구글은 해당 기능을 구글 번역 앱의 베타 서비스로 먼저 제공했으며, 현재 미국·멕시코·인도 내 안드로이드 기기에서 이용 가능하다. iOS와 다른 지역으로의 확대도 예고됐다.
기업 현장에서의 활용 사례도 함께 공개됐다. 쇼피파이는 제미나이 네이티브 오디오를 적용해 사용자가 AI와 대화 중임을 인식하지 못할 정도로 자연스러운 고객 경험을 구현하고 있으며, 유나이티드 홀세일 모기지(United Wholesale Mortgage)는 이 모델을 도입해 1만4천 건 이상의 대출 성사를 이끌어냈다고 구글은 설명했다. 이는 음성 AI가 단순 응답을 넘어 실제 비즈니스 성과로 연결되고 있음을 보여주는 사례로 해석된다.
제미나이 2.5 플래시 네이티브 오디오는 현재 버텍스 AI에서 정식 제공되며, 제미나이 API에서는 프리뷰 형태로 사용할 수 있다. 구글은 사용자와 개발자 피드백을 반영해 기능을 지속적으로 고도화하고, 2026년에는 제미나이 API를 포함한 더 많은 제품군으로 확장할 계획이다.
AI 업계에서는 이번 업데이트를 계기로 ‘음성 인터페이스’가 보조 수단이 아닌, AI 에이전트의 핵심 인터페이스로 자리 잡을 가능성에 주목하고 있다. 키보드와 화면 중심의 상호작용에서 벗어나, 듣고 말하며 상황을 이해하는 AI가 일상과 산업 전반에 스며드는 전환점이 될 수 있다는 분석이다.
텍스트에서 음성으로, 응답에서 행동으로. 제미나이 2.5 플래시 네이티브 오디오는 AI가 어디까지 인간의 소통 방식에 가까워질 수 있는지를 보여주는 하나의 분기점으로 기록될 가능성이 크다.
[ 변아롱 기자 : yangcheon@thekoreantoday.com ]
<저작권자 ⓒ 코리안투데이(The Korean Today) 무단전재 및 재배포 금지>



