2024년 07월 18일 목요일

  • 서울 24℃

  • 인천 25℃

  • 백령 25℃

  • 춘천 24℃

  • 강릉 24℃

  • 청주 25℃

  • 수원 25℃

  • 안동 28℃

  • 울릉도 25℃

  • 독도 25℃

  • 대전 26℃

  • 전주 28℃

  • 광주 28℃

  • 목포 27℃

  • 여수 28℃

  • 대구 31℃

  • 울산 28℃

  • 창원 28℃

  • 부산 27℃

  • 제주 27℃

산업 삼성전자, '갤럭시 AI' 언어 모델 고도화···연내 스웨덴어 등 추가

산업 전기·전자

삼성전자, '갤럭시 AI' 언어 모델 고도화···연내 스웨덴어 등 추가

등록 2024.06.25 09:38

차재서

  기자

삼성전자가 '갤럭시 AI' 언어 모델에 연내 스웨덴어 등 4개국어를 추가한다. 사진=삼성전자 제공삼성전자가 '갤럭시 AI' 언어 모델에 연내 스웨덴어 등 4개국어를 추가한다. 사진=삼성전자 제공

삼성전자가 자유로운 소통을 돕는 '갤럭시 AI(인공지능)'의 언어 모델을 고도화한다고 25일 밝혔다.

그 일환으로 연내 스웨덴어, 네덜란드어, 루마니아어, 튀르키예어 등 네 개 언어를 추가해 총 20개 언어를 지원한다는 방침이다. 현재 '갤럭시 AI'는 한국어와 중국어(간체), 영어, 프랑스어, 독일어, 힌디어, 이탈리아어 등 16개 나라 언어의 실시간 통·번역 등을 서비스하고 있다.

그간 삼성전자는 전세계 20여 개 R&D센터에서 언어 모델 연구·개발에 매진해왔다. ▲언어의 특성·문법에 대한 정량 평가 ▲문화에 대한 지식·이해를 검증하는 정성 평가 등을 거쳐 모델을 공개한다.

일례로 아랍어의 경우 20여 개국 4억명 이상이 사용하는 언어인데, 이를 통변역에 활용하려면 현대 표준 아랍어인 풋스하(Fusha)와 일상생활에서 사용하는 방언 암미야(Ammiyya)를 모두 학습해야 한다. 특히 아랍어 방언은 약 30종에 이른다.

이에 삼성리서치 요르단 연구소(SRJO)는 아랍어 방언을 이해하면서, 답변은 표준 아랍어로 할 수 있는 언어 모델을 개발했다. 이를 위해 각기 다른 방언의 음성 녹음 데이터를 수집하고, 직접 텍스트로 변환하는 과정을 거쳤다.

데이터베이스 구축을 맡은 요르단 연구소의 아야 하산(Ayah Hasan)은 "여러 방언의 미묘한 차이와 변형을 정확히 이해할 수 있는 원어민으로 갤럭시 AI 팀을 구성하고, 음성 데이터를 일일이 글과 문장으로 바꾸는 수작업을 진행했다"고 설명했다.

또 베트남어는 중국어·태국어 등 인근 지역 언어와 비슷한 성조 체계를 지녔다. 삼성리서치 베트남 연구소(SRV)는 이를 고려해 성조의 미세한 차이를 인식할 수 있도록 음성 데이터를 정교하게 다듬고 정제하는 데 공을 들였다. 무엇보다 성조를 정확히 구분하기 위해 한 단어를 0.02초 전후의 짧은 프레임으로 자르고 데이터베이스화했다는 전언이다.

이밖에 중남미 지역 언어 모델 개발을 담당한 삼성리서치 브라질 연구소(SRBR)는 '갤럭시 AI'가 중남미 국가의 스페인어 차이를 이해할 수 있도록, 각 국가의 오디오와 텍스트 등 방대한 양의 데이터를 수집·관리하고 지속적으로 개선했다.
ad

댓글