|
▲ 중국어-영어 환경에서 번역(1) 및 후편집(2,3,4) 방법론이 적용된 X-RiSAWOZ의 프로세스 모식도. 노란 부분은 사람이 직접 해 주어야 하는 영역이고, 붉은 부분은 소스 언어의 데이터셋 영역, 보라색 부분은 자동으로 생성되는 타깃 언어 영역이다. (자료=한양대) |
연구팀의 기술을 활용하면 고품질의 다국어 챗봇 에이전트를 저렴한 비용으로 기계학습 시킬 수 있다. 이번 연구는 자연어 처리 분야의 최우수 학술대회인 ‘ACL (Conference on Machine Learning and Systems)’의 ‘Findings’ 트랙에서 발표됐으며, 공동 연구팀은 데이터셋, 코드, 툴 등을 오픈소스로 공개하였다.
그동안 주요 국제 학회에서 발표되고 논의된 대화형 챗봇 연구는 주로 영어, 중국어와 같이 널리 사용되는 언어에 국한되어 왔다. 새로운 언어를 위한 데이터셋을 만드는 데 적지 않은 비용이 들어가기 때문이다. 연구팀이 제안한 기법을 사용하면, 사람이 번역한 데이터셋 일부를 기반으로 전체 데이터셋에 대한 자동 번역 품질을 향상시켜 널리 사용되지 않은 언어에 대해서도 데이터셋 제작 비용을 현저히 줄일 수 있다.
연구팀은 신경망 기반 기술과 사전 기반 기술을 독창적으로 통합하는 자연어 처리 기술인 통합적 개체 정렬(Hybrid Entity Alignment) 기술을 고안했다. 연구팀은 이를 활용하여 전체 데이터셋을 번역하는 대신 작은 크기의 일부 데이터셋만 번역한 후 기술을 적용하는 ‘번역 및 후편집 방법론’을 제안하였다.
이 기법을 적용하면 데이터셋 전체를 번역하지 않아도 챗봇 모델의 다국어 성능을 유의미하게 높일 수 있다. 예를 들면, 한국어로 훈련된 챗봇 모델을 서비스하는 기업에서 글로벌 고객을 응대하기 위해 영어와 프랑스어에 대해서도 같은 기능의 챗봇 모델을 서비스해야 할 때, 기존에는 한국어 모델을 훈련할 때 사용했던 데이터셋 전체를 번역해야 했지만 ‘번역 및 후편집 방법론’을 적용하면 데이터셋의 일부만 번역해도 비슷한 성능을 가지는 다국어 챗봇 모델을 서비스할 수 있게 된다.
공동 연구팀은 독립체 정렬 기술의 성능을 측정하기 위하여 중국어로 된 ‘RiSAWOZ’ 데이터셋을 영어, 프랑스어, 힌디어, 한국어, 영어-힌디 변형(Code-mixed)의 5가지 타깃 언어에 대하여 실험을 수행하였다. 또한 데이터셋의 품질을 더욱 높일 수 있는 다양한 자동화, 반자동화 검사 툴들을 개발하였다.
특히 한국어는 다른 언어와 단어 조합 방법이 달라 통합적 개체 정렬 기술을 적용하기에 어려움이 있었다. 서지원 교수 연구팀의 김성균 박사과정 연구원은 한국어 데이터셋의 독립체 정렬 기술 성능을 높이기 위하여 어절 단위가 아닌 단어 단위로 개체 정렬을 적용할 수 있도록 문자 단위의 개체 정렬 기법을 제안하고, 이를 위한 도구 개발에 참여하였다. 이를 통해 조사, 보조 용언같이 한 어절에서 나타나는 변화를 포함한 여러 한국어의 특성들을 고려할 수 있게 됐다.
|
▲ 한양대 컴퓨터소프트웨어학부 서지원 교수(왼쪽), 김성균 박사과정 연구원 (사진=한양대) |
공동 연구팀은 본 연구 결과인 대화형 챗봇 에이전트를 위한 엔드 투 엔드(End-to-End) 데이터셋과 검사 툴들을 포함한 ‘X-RiSAWOZ’ 벤치마크를 오픈소스로 공개하였다.


![[올해의 국무위원] 김정관 산업통상부 장관, 관세협상부터 APEC·통상·원전까지 완벽 수헁](http://www.ekn.kr/mnt/thum/202512/news-p.v1.20251224.e87e54b957684f12be0c6289604b1e96_T1.png)




![[임진영의 아파토피아] ‘IT에서 AI로’…세대 따라 진화하는 K-아파트](http://www.ekn.kr/mnt/thum/202512/news-p.v1.20251223.c104d20af40e4cd4932e31e56a641811_T1.png)

![카드업계 또 정보유출...“내부통제 프로세스 개선해야” [이슈+]](http://www.ekn.kr/mnt/thum/202512/news-p.v1.20251224.01175eb846bd4a30b1115a3e9417764a_T1.jpg)
![[김성우 시평] 글로벌 기후정책 변화와 인식 전환의 필요성](http://www.ekn.kr/mnt/thum/202512/news-p.v1.20240324.49bb7f903a5147c4bf86c08e13851edc_T1.jpg)
![[EE칼럼] 대통령의 근본적인 질문에 답변하지 못한 기후부](http://www.ekn.kr/mnt/thum/202512/news-a.v1.20251222.88272328e22b4f0b9029ff470d079b13_T1.jpg)
![[김병헌의 체인지] 대통령, 반도체 앞에서 원칙을 묻다](http://www.ekn.kr/mnt/thum/202512/news-p.v1.20240625.3530431822ff48bda2856b497695650a_T1.jpg)
![[이슈&인사이트] 정보 보안에 대한 발상 전환](http://www.ekn.kr/mnt/thum/202512/news-a.v1.20240716.800c606b01cc4081991c4bcb4f79f12b_T1.jpg)
![[데스크 칼럼]쿠팡에게는 공정한가](http://www.ekn.kr/mnt/thum/202512/news-p.v1.20251109.63f000256af340e6bf01364139d9435a_T1.jpg)
![[기자의 눈] 흥행으로 증명된 IMA, 이제는 ‘어디에 쓰느냐’가 남았다](http://www.ekn.kr/mnt/thum/202512/news-p.v1.20251224.9758ce0d23bd4ff78b1fe0a002ce1208_T1.jpg)








