이프 카카오서 직접 만난 최신 AI 기술현상 이해하고 텍스트와 음성으로 응답아직 개발 단계, 향후 카톡 적용 가능성도
23일 오전 경기도 용인시 카카오AI캠퍼스에서 열린 '이프 카카오(if(kakao)25)' 행사장에 마련된 카카오 AI 존에는 카나나-o를 비롯해 언어모델 '카나나-v', 동영상 생성모델 '카나나-키네마', 대형언어모델(LLM) 등 카카오가 자체 개발한 AI 모델들을 체험할 수 있는 공간이 마련됐다.
이 중 기자는 카나나-o를 직접 체험해 봤다. 카나나-o는 텍스트와 음성, 이미지를 동시에 이해하고 텍스트와 음성으로 동시에 응답하는 모델로, 이같은 형태의 AI 모델은 국내에선 카카오가 최초다. 음성 언어 모델 카나나-v와 오디오 언어 모델 카나나-a를 병합하는 기법으로 단기간 빠르게 개발하면서도 학습 효율을 최대치로 끌어올렸는데. 이미지와 음성이 한꺼번에 입력되는 복잡한 지시에도 약 1~2초 빠르고 자연스럽게 반응하는 점을 장점으로 내세우고 있다.
카나나-o 사용 방법은 간단했다. 카나나-o가 설치된 휴대폰 카메라를 통해 사물을 보여주며 대화를 걸면, AI가 음성과 문자로 답하는 형식이었다. 카카오 측이 제공한 휴대폰을 들고 체험 부스에 입장하니 벽에는 사진 3장이 걸려있었고, 소설책 한 권과 빈 물병, 메모지 등 다양한 오브젝트가 놓여 있었다.
먼저 벽에 걸린 횡단보도 사진을 비추고 어떤 상황인지 카나나-o에게 물었다. 답변을 듣는 데는 채 2초도 걸리지 않았다. 카나나-o는 "사진에는 신호등과 횡단보도가 보이고 보행자 신호등이 빨간불이라서 보행자가 멈춰야 하는 상황입니다"라고 답했다. 그와 동시에 휴대폰 화면에는 답변 내용이 문자로 표기됐다.
국악 공연을 하는 사진을 비추며 '이 사람들은 뭘 하고 있는지'를 묻자 "사진 속 두 사람은 전통 공연을 하는 것 같다"며 "한 명은 서서 북채를 들고 있고, 다른 한 명은 앉아서 북을 치고 있는데 두 사람 모두 흰색 옷을 입고 있어 전통적인 분위기가 느껴진다"고 설명했다.
좀 더 어려운 질문을 하기로 마음먹고 "앉아 있는 사람은 직업이 뭐야"라고 질문하자 "전통 의상을 입고 북을 연주하는 것으로 보아 전통 음악가나 국악 연주자일 가능성이 높다"고 말했다. 기자가 원하던 대답은 고수(鼓手)였으나, 국악 연주자라고 답한 점에서 절반의 점수는 주고 싶었다.
보고, 듣고, 쓰고, 말하는 게 모두 되는 AI라니 상당히 신선하게 다가왔다. 대기 인원이 많은 탓에 체험이 다소 짧게 진행돼 심층적인 질문을 할 수 없어 아쉬움이 컸다. 그러나 질문과 답변이 오가는 일반적인 기능뿐만 아니라 좀 더 복합적인 형태의 작업 수행도 가능하다는 게 카카오의 설명이다. 카카오 관계자는 "소설책 표지를 비추면서 책의 내용을 팟캐스트 형식으로 설명해달라고 하면, 서로 다른 음성이 마치 대화하는 것처럼 소설 내용과 주제까지 설명할 수 있다"고 했다.
카나나-o는 아직 상용화 단계까진 이르지 못해 당장 개편되는 카카오톡 기능에 탑재되진 않았다. 다만 추후 기술이 안정화하면 향후 적용 가능성을 열어둔 상태다. 카카오 측은 "이날 카나나-o는 우리가 보유한 기술을 체험하는 의미로 설치한 것"이라며 "자체 개발한 모델인 만큼 우리 서비스에 들어갈 가능성이 있지만 구체적으로 검토되는 단계는 아니다"라고 말했다.

뉴스웨이 유선희 기자
point@newsway.co.kr
저작권자 © 온라인 경제미디어 뉴스웨이 · 무단 전재 및 재배포 금지
댓글