|
▲OCR 변환 화면 이미지(제공-한국국학진흥원) |
유교책판의 활자를 영인한 고서의 한자 인식률 70%를 목표로 시작했던 1차 사업은 현재 약 80%의 정확도로 문자를 인식하는 수준에 이르렀고, 이후 지속적 개발을 통해 정확도를 올릴 예정이다. 이 결과는 현재 최종 품질 검증을 거쳐 AI-Hub를 통해 공개될 예정이다.
◇전통문화 현대적 활용을 위한 첫걸음
한국의 세계기록유산 유교책판은 문집을 인쇄하기 위해 나무판에 활자를 새겨 만든 기록물이다. 유교책판의 활자를 찍어낸 문집 등의 고서는 전통 기록유산 중에서 가장 많은 양을 차지하고 있다. 그런데 고서에 대한 접근성을 높이는 것은 한국 전통 인문학의 발전을 앞당기고 전통문화 기반의 새로운 콘텐츠 제작의 가능성을 열어준다.
이를 위해 가장 중요한 첫걸음은 책으로만 남아 있던 고서 내용을 디지털 문자로 치환함으로써, 검색성과 활용도를 높이는 일이다. 그래서 한자 해독이 가능한 전문가들이 주요 경전의 내용을 한 글자 한 글자 입력하면서 디지털화 작업을 진행하고 있다. 이런 방식이라면 수많은 고서 내용을 디지털 문자로 전환하는 일은 요원하기만 하다. 이미지 중심인 고서 문자를 인식하고, 이를 디지털화된 문자로 입력하는 새로운 시스템이 절실히 필요하다.
현재 한글 및 영문, 기타 다양한 언어 영역에서 광학문자인식(OCR) 시스템이 폭 넓게 활용되고 있다. 따라서 한국국학진흥원은 광학문자인식 인공지능 모델 개발 전문업체인 ㈜누리IDT 및 ㈜NHN다이퀘스트 등의 기술력을 적용하여 한자를 자동으로 인식하기 위한 OCR 시스템 개발에 착수했다.
◇AI와 한자의 만남
이번 ‘한자 인식 OCR 인공지능 모델 개발’은 인공지능(AI)이 가진 딥러닝(Deep Learnimg) 기술이 적극 차용됐다. 고서 속에 비교적 정자체로 기록된 한자의 다양한 이미지를 컴퓨터 텍스트 기호인 유니코드로 인식하도록 학습시키는 데이터셋을 구축함으로써, 스캔이나 촬영 등을 통해 이미지가 확보된 한자를 텍스트로 인식해 변환할 수 있도록 했다. 이를 위해 고서 전체 이미지에서 한 글자 한 글자를 잘라내고(세그멘테이션), 그 글자 이미지를 텍스트로 인식할 수 있도록 치환하는 기술들이 적용됐다.
이번 1년차 사업을 통해 글자수 기준 1천 만자의 이미지를 입력하고, 이를 인공지능이 지속적으로 학습할 수 있도록 했다. 한국국학진흥원은 기존 DB구축 사업을 통해 확보된 이미지와 이번 사업을 위해 별도로 고해상도의 이미지 스캔을 해둔 결과물을 중심으로 다양한 글자들을 인공지능이 학습할 수 있도록 했다. 이를 통해 글자수 기준 1천 만자 정도로만으로도 고해상도의 이미지인 경우 80%의 정확도를 보여주고 있으며, 향후 지속적인 사업을 통해 더 많은 글자 이미지를 입력하여 인공지능 학습이 이루어질 수 있게 하면 인식률은 더 높아질 것으로 기대하고 있다.
특히 이 사업이 본 궤도에 오르면 일반 사용자들이 유적지 등을 방문했을 때 한자로 기록된 현판이나 문서들을 이미지로 촬영해 한자의 뜻과 의미를 확인할 수 있게 될 것이며, 또 한자 텍스트를 기반으로 개발 중인 자동 번역 시스템과 연계할 때 한국 고전 번역에 획기적인 속도를 기대할 수 있다.
한국국학진흥원 정종섭 원장은 "산적해있는 고서들을 활용하기 위한 첫 단계가 디지털화 작업인데, 이번 1년차 사업만으로도 디지털화 속도가 몇 배 이상 빨라졌다"면서, "향후 이미지 인식률을 높일 수 있는 사업을 계속 추진해나갈 것이며, 이 결과물이 일반인들이 실생활에서 활용할 수 있는 서비스까지 이어질 수 있도록 노력하겠다."고 밝혔다. jjw5802@ekn.kr
![[에너지경제 여론조사] 李 대통령 지지율 53.2%…“7주째 횡보”](http://www.ekn.kr/mnt/thum/202512/news-a.v1.20251227.4fc1cc6c781f4f48a922beae0c1f59af_T1.jpg)









![[김성우 시평] 글로벌 기후정책 변화와 인식 전환의 필요성](http://www.ekn.kr/mnt/thum/202512/news-p.v1.20240324.49bb7f903a5147c4bf86c08e13851edc_T1.jpg)
![[EE칼럼] 대통령의 근본적인 질문에 답변하지 못한 기후부](http://www.ekn.kr/mnt/thum/202512/news-a.v1.20251222.88272328e22b4f0b9029ff470d079b13_T1.jpg)
![[김병헌의 체인지] 대통령, 반도체 앞에서 원칙을 묻다](http://www.ekn.kr/mnt/thum/202512/news-p.v1.20240625.3530431822ff48bda2856b497695650a_T1.jpg)
![[이슈&인사이트] 정보 보안에 대한 발상 전환](http://www.ekn.kr/mnt/thum/202512/news-a.v1.20240716.800c606b01cc4081991c4bcb4f79f12b_T1.jpg)
![[데스크 칼럼] 검증대 선 금융지주 지배구조, 증명의 시간](http://www.ekn.kr/mnt/thum/202512/news-p.v1.20251228.c6bb09ded61440b68553a3a6d8d1cb31_T1.jpeg)
![[기자의 눈] 흥행으로 증명된 IMA, 이제는 ‘어디에 쓰느냐’가 남았다](http://www.ekn.kr/mnt/thum/202512/news-p.v1.20251224.9758ce0d23bd4ff78b1fe0a002ce1208_T1.jpg)








