카카오, 통합 멀티모달 AI ‘카나나-o’ 공개…음성·이미지·텍스트 모두 이해

카카오가 국내 최초로 텍스트, 음성, 이미지를 동시에 처리할 수 있는 통합 멀티모달 인공지능 모델 ‘카나나-o(Kanana-o)’를 공개했다. 이 모델은 기존의 텍스트 중심 AI를 넘어, 사람처럼 보고 듣고 말하며 감정을 이해하는 AI로 진화하고 있다.

[코리안투데이] 카나나-o의 멀티 모달 언어 모델 (사진=카카오) © 변아롱 기자

카나나-o는 이미지 처리에 특화된 ‘카나나-v’와 음성 이해 및 생성에 특화된 ‘카나나-a’를 병합하여 개발되었다. 이러한 모델 병합을 통해 학습 시간을 단축하고, 다양한 모달리티 간의 상호작용을 학습할 수 있었다. 특히, 텍스트, 음성, 이미지 데이터를 동시에 학습하여, 복합적인 입력에 대한 자연스러운 응답이 가능하다.

음성 감정 인식 기술을 통해 사용자의 의도를 정확히 해석하고, 상황에 맞는 감정 표현이 담긴 음성 응답을 생성할 수 있다. 또한, 한국어의 특수한 언어 구조와 억양을 정확히 반영하며, 제주도나 경상도 등 지역 방언도 표준어로 변환하여 자연스러운 음성으로 생성할 수 있다.

카나나-o는 한국어 및 영어 벤치마크에서 GPT-4o와 제미나이 1.5와 유사한 수준의 성능을 보였으며, 특히 한국어 감정 인식 능력에서는 우수한 성과를 나타냈다. 이미지-음성 QA 작업에서도 글로벌 모델보다 높은 성능을 보이며, 이미지와 음성을 통합적으로 이해하는 능력을 입증했다.

카카오는 카나나-o를 기반으로 다중 음성 대화 환경에서의 사용자 경험 혁신을 목표로 하고 있다. 이를 위해 멀티턴 대화 처리, 양방향 데이터 동시 응답 능력 강화, 부적절한 응답 방지를 위한 안전성 확보 등을 추진할 계획이다.

카카오의 김병학 카나나 성과리더는 “카나나 모델은 복합적인 형태의 정보를 통합적으로 처리함으로써 기존의 텍스트 중심 AI를 넘어 사람처럼 보고 듣고 말하며 공감하는 AI로 진화할 것”이라며, “독자적인 멀티모달 기술을 바탕으로 기술 경쟁력을 강화하는 한편, 지속적 연구 결과 공유를 통해 국내 AI 생태계 발전에 기여할 계획”이라고 밝혔다.