한글 장착하고 침공한 美 AI를 이기려면

구글의 AI 챗봇 '바드'(Bard)가 첫 번째 외국어로 한국어를 채택했다. 오픈AI '챗GPT' 역시 지난 3월 네 번째 시리즈를 공개하면서 언어를 강화했다. 그런데도 '한국형 AI' 왕좌를 차지하겠다고 호언장담한 국내 플랫폼 기업들은 감감무소식이다.

글로벌 빅테크들이 생성형 AI 시장을 선점하기 위해 매일 새로운 모델과 서비스를 출시하고 있는 반면, 이들과 경쟁하는 국내 플랫폼 기업들은 아직까지 별다른 움직임을 보이지 않고 있다. 네이버는 지난 2월 'DEVIEW 2023' 행사에서 초대규모 AI '하이퍼클로바X'를 공개했다. 당시 하이퍼클로바X는 챗GPT-3.0 대비 한국어를 6500배 많이 학습한 것으로 소개됐으나, 이후 업데이트된 내용은 없다.

카카오도 마찬가지다. 2021년 발표한 'KoGPT'는 당시 챗GPT-3.0의 한국어 특화 AI 언어모델로 소개됐다. 올해 하반기에는 파라미터와 데이터 토큰 규모가 확장된 KoGPT2.0을 출시할 계획이다. 관련해 지난 1분기 컨퍼런스콜에서 홍은택 카카오 대표는 "하반기 공개될 2.0모델은 글로벌 경쟁력 측면에서 파라미터나 데이터셋은 부족할 수 있지만 한국어 특화 모델로서는 부족함 없을 것"이라고 언급한 바 있다.

결론적으로 이들이 내세우는 공통된 강점은 '한글'이다. 각각 검색 엔진으로서, 메신저사업에서 다년간 쌓아 놓은 언어 데이터양이 누구보다 월등하다는 자부심이다.

하지만 지금 시점에 한국어 데이터가 강점이 될 수 있을지는 의문이다. 외산 경쟁 서비스인 바드에 적용된 최신 대규모 언어 모델(LLM) '팜2'는 5300억개 파라미터(매개변수)를 보유했으며 100개 이상의 언어를 기반으로 학습했다. 대중에 공개된 체험 버전을 써 본 국내 이용자들은 큰 만족감을 나타낸다.

지난 3월 공개된 GPT-4.0 역시 기존 3.5 버전에서 '언어 구사 능력'을 업그레이드했다. 오픈AI 측에서 파라미터 수를 직접 밝히고 있지 않지만 업계에선 1조 개를 상회한다고 평가한다. 오픈AI는 내부 실험 결과, 서비스 공개한 26개 언어 중 한국어 포함 24개 언어에서 이전 버전보다 높은 성능을 가진 것으로 확인됐다고 한다. 결국 이들 강점도 '언어'인 것이다.

네이버와 카카오의 국산 생성형 AI는 모두 하반기에 출시될 예정이다. 이용률이 높을수록 고도화된다는 AI의 특징을 생각하면 경쟁사들에 비해 너무 늦다. 일각에서는 이들이 이미 글로벌 경쟁은 포기하고 국내 스타트업에게 유료 API를 제공해 수익을 얻는 선에서 그칠 것이라는 부정적인 전망도 나오고 있다. 글로벌 빅테크와의 경쟁은 차치하더라도 국내 시장 수성마저 위태로운 지금, 두 회사는 분주히 움직여야 할 것으로 보인다.