"GPT도 넘었다"···LG, 멀티모달 '엑사원 4.5' 공개

텍스트·이미지 이해 능력 동시 강화330억 파라미터 경량화와 효율성 확보

(사진=LG제공)

LG AI연구원이 텍스트와 이미지를 동시에 이해하고 추론하는 멀티모달 인공지능(AI) 모델 '엑사원(EXAONE) 4.5'를 공개하며 비전-언어 모델(VLM) 경쟁에 본격적으로 뛰어들었다.

LG AI연구원은 9일 '엑사원 4.5'를 공개하고, 텍스트 중심 AI를 넘어 시각 정보를 함께 이해하는 멀티모달 AI로 기술 영역을 확장했다고 밝혔다.

'엑사원 4.5'는 LG AI연구원이 자체 개발한 비전 인코더와 거대언어모델(LLM)을 하나의 구조로 통합한 모델이다. LG의 AI 파운데이션 모델 프로젝트인 'K-엑사원'의 모달리티 확장을 위한 사전 단계로, 향후 음성·영상·물리 환경까지 이해하는 '피지컬 인텔리전스'로 발전시키기 위한 기반으로 활용될 예정이다. LG AI연구원은 올해 8월 프로젝트 2차수 종료 이후 3차수 진출이 확정되면 본격적인 확장에 나선다는 계획이다.

이전 '엑사원 3.0'이 텍스트 중심의 언어모델에 머물렀다면, '엑사원 4.5'는 시각 정보를 결합한 멀티모달로 확장되며 한 단계 진화했다. 또한 3.0이 오픈 웨이트 공개를 통해 생태계 확장에 초점을 맞췄다면, 4.5는 성능과 효율을 동시에 끌어올리는 데 방점을 찍었다.

'엑사원 4.5'는 일반 시각 이해를 측정하는 3개 지표와 이미지와 텍스트가 결합된 인포그래픽을 비롯해, 전문 문헌 속 복합 정보를 읽어내는 문서 이해 및 추론 성능 평가 지표 5개를 포함한 13개 지표 평균 점수에서도 지피티(GPT)5-mini와 클로드 소넷(Claude Sonnet) 4.5, 큐웬(Qwen)3-VL을 상회하는 성능을 보였다.

또한 코딩 성능 지표인 라이브코드벤치(LiveCodeBench) v6에서는 81.4점을 기록해 Google의 젬마(Gemma) 4 (80.0점)를 넘어섰고, 복잡한 차트 분석 능력을 평가하는 ChartQA Pro에서도 높은 점수를 기록했다.

LG AI연구원 관계자는 "시각 능력 평가 지표에서 높은 평균 점수를 기록했다는 것은 AI가 문서 속 글자나 비정형 데이터를 단순히 인식하는 수준을 넘어, 맥락을 파악하고 질문에 답할 수 있는 이해력을 갖췄다는 의미"라고 설명했다.

효율성 측면에서도 의미 있는 성과를 냈다. '엑사원 4.5'는 330억 개(33B) 파라미터 규모로, 기존 'K-엑사원' 대비 약 7분의 1 수준으로 경량화됐음에도 텍스트 이해 및 추론 성능에서 동등한 수준을 보였다. 이는 하이브리드 어텐션 구조와 멀티 토큰 예측 기반의 고속 추론 기술을 적용한 결과로 분석된다.

LG AI연구원은 한국어와 영어 외에 스페인어, 독일어, 일본어, 베트남어까지 공식 지원 언어를 확대하며 글로벌 활용성을 강화하기도 했다.

생태계 확장 전략도 병행하고 있다. LG AI연구원은 '엑사원 4.5'를 글로벌 오픈소스 플랫폼 허깅페이스(Hugging Face)에 공개하며 연구·학술·교육 목적으로 활용할 수 있도록 했다. 앞서 '엑사원 3.0'을 국내 최초 오픈 웨이트 모델로 공개한 데 이어, 개방형 전략을 통해 AI 생태계 확대에 나선다는 구상이다.

김명신 LG AI연구원 신뢰안전사무국 총괄은 "한국어 능력을 갖춘 AI는 늘고 있지만, 역사와 문화적 민감성을 깊이 이해하는 것은 차원이 다른 문제"라고 강조하며 "엑사원은 자체 설계한 AI 위험 분류체계(K-AUT)를 기반으로 풍부한 표현력과 신뢰성을 동시에 확보한 AI로 진화해 나갈 것"이라고 말했다.