|
▲스마일게이트 AI센터가 공개 예정인 한국어 혐오표현 데이터셋 예시. |
스마일게이트 AI 센터는 최근 혐오 표현이 온라인 공간에서 광범위하게 증가하고 있고, 사회적 문제로 이어질 수 있다는 점을 고려해, 혐오 표현을 선제적으로 감지하고 대응할 수 있도록 악플 및 혐오 발언 데이터셋을 구축했다. 이번 프로젝트는 지식 콘텐츠 스타트업 언더스코어와 협업을 통해 이뤄졌다.
악플 및 혐오 발언 데이터는 지난 2019년 1월 1일부터 2021년 7월 1일까지 기간 동안 포털 사이트, 커뮤니티 등 다양한 웹사이트의 게시글을 대상으로 수집했다. 수집 과정에서 혐오 관련 데이터의 시의성과 편향성을 띄고 있는 특성을 감안했으며, 약 55만 여 개의 데이터를 기반으로 1만 개의 데이터셋을 구축했다.
특히 데이터셋 구축 과정에서 ‘여성·가족’ ‘성소수자’ ‘남성’ ‘인종·국적’ ‘연령’ ‘지역’ ‘종교’ ‘기타혐오’ 등 8개의 대상으로 범주화 했다. 또 혐오 발언 분류를 위한 기준 모델을 공개했으며, 이를 통해 혐오 발언 추출이 가능하다.
스마일게이트 AI 센터의 악플 및 혐오 발언 데이터셋은 향후 다양한 영역에서 활용될 수 있을 것으로 기대된다.게임 커뮤니티 내 댓글, 고객 응대 상담 챗봇, 여론 조사 등 여러 분야에서 대상을 둘러싼 혐오 발언 여부를 파악할 수 있다. 향후 지속적인 연구개발(R&D)을 실시하면서 확보된 기술력을 바탕으로 혐오 표현을 보다 높은 정확도로 정확하게 찾아낼 수 있는 기술을 고도화 할 계획이다.한편 이번에 수집된 데이터는 스마일게이트 AI 센터 깃허브 페이지를 통해 이달 중 공개될 예정이다.
한우진 스마일게이트 AI 센터장은 "이번에 공개된 데이터가 더 안전하게 AI를 활용하는 데 밑거름이 되기를 바란다"며 "앞으로도 스마일게이트 AI 센터는 그동안 진행해온 연구 결과와 노력들이 기술적인 관점에서 뿐만 아니라 사회에 긍정적인 기여를 할 수 있도록 다양한 노력을 시도할 것"이라고 말했다.
hsjung@ekn.kr










![[김성우 시평] 글로벌 기후정책 변화와 인식 전환의 필요성](http://www.ekn.kr/mnt/thum/202512/news-p.v1.20240324.49bb7f903a5147c4bf86c08e13851edc_T1.jpg)
![[EE칼럼] 대통령의 근본적인 질문에 답변하지 못한 기후부](http://www.ekn.kr/mnt/thum/202512/news-a.v1.20251222.88272328e22b4f0b9029ff470d079b13_T1.jpg)
![[김병헌의 체인지] 대통령, 반도체 앞에서 원칙을 묻다](http://www.ekn.kr/mnt/thum/202512/news-p.v1.20240625.3530431822ff48bda2856b497695650a_T1.jpg)
![[이슈&인사이트] 정보 보안에 대한 발상 전환](http://www.ekn.kr/mnt/thum/202512/news-a.v1.20240716.800c606b01cc4081991c4bcb4f79f12b_T1.jpg)
![[데스크 칼럼] 검증대 선 금융지주 지배구조, 증명의 시간](http://www.ekn.kr/mnt/thum/202512/news-p.v1.20251228.c6bb09ded61440b68553a3a6d8d1cb31_T1.jpeg)
![[기자의 눈] 흥행으로 증명된 IMA, 이제는 ‘어디에 쓰느냐’가 남았다](http://www.ekn.kr/mnt/thum/202512/news-p.v1.20251224.9758ce0d23bd4ff78b1fe0a002ce1208_T1.jpg)








