![]() |
▲왼쪽부터 쏘카 AI팀 박경호 팀장, 김현수 매니저, 조충현 매니저가 지난 7일 싱가포르에서 개최된 ‘EMNLP 2023’에서 기념 촬영을 하고 있다. |
EMNLP는 자연어처리(NLP) 분야 최고의 국제 학술대회로 꼽힌다. EMNLP에서는 AI 번역, 기계 독해, 번역 등 언어 데이터 기반의 인공지능 연구를 다룬다. 오는 10일까지 싱가포르에서 개최되는 ‘EMNLP 2023’에는 구글 딥마인드, 마이크로소프트 리서치 등 유수의 AI 기업이 참여했다.
쏘카 AI팀은 지난 7일 열린 MRL(Multilingual Representation Learning) 워크숍에 참가하고 여러 언어에서 활용할 수 있는 다국어 언어 처리 기술에 대한 연구 성과를 공유했다. 쏘카 AI팀은 ‘소규모 언어 데이터를 활용한 다국어 음성 파운데이션 모델 학습 방법’을 제안, 많은 파라미터를 가진 거대모델에서 필요한 파라미터만 추출해 새로운 언어 혹은 도메인에서도 성능을 보장할 수 있는 사례에 대해 소개했다.
먼저 복권 가설(LTH)이라는 경량화 기법을 이용해 거대 모델에서 타깃으로 삼은 언어에 관련된 파라미터 만을 추출한다. 추출된 파라미터에는 타깃 언어과 관련된 문법적, 고차원의 언어적 특성이 담겨있어 적은 파라미터 만으로도 여러 문제를 풀 수 있다. 나아가 제안한 기법은 도메인에 관련된 지식을 추가적으로 학습시키기 위해 LoRA(Low-Rank Adaption)을 이용한다. LoRA 기법을 통해 약 2% 만의 파라미터 만으로 학습이 가능해 적은 양의 연산 자원에도 기존과 유사한 성능을 달성할 수 있음을 밝혔다.
한편 쏘카 AI팀은 올해 EMNLP, ICLR 등 유명 국제 학회에서 약 7편의 연구논문을 발표했다. 연구 성과는 다양한 AI 제품에 적용되고 있다. 쏘카에 따르면 이번 연구 결과는 쏘카가 오는 2024년 선보일 인공지능컨택센터(AICC) 제품에도 적용돼 음성 언어 파운데이션 모델 구축에 필요한 연산 자원을 절감하는데 큰 역할을 했다.
박경호 쏘카 AI 팀장은 "이번 논문이 자연어 학습 모델 연구에 레퍼런스로 활용되길 기대한다"며 "지속적인 연구를 통해 쏘카의 모빌리티 서비스를 효율화하는 한편 이용자에게는 더 합리적이고 편리한 이동 경험을 제공할 수 있도록 노력하겠다"고 말했다.
kth2617@ekn.kr