한동대학교와 한국과학기술정보연구원(KISTI) 공동연구팀이 남북한 언어 장벽을 허물기 위한 AI 번역 모델을 개발하며 국제 학계의 주목을 받았다.
연구팀은 지난 7일부터 9일까지 일본 도쿄외국어대학교에서 열린 제38회 태평양 아시아 언어, 정보 및 계산 학술대회(PACLIC 2024)에서 연구 성과를 발표했다. 발표 주제는 'Bridging the Linguistic Divide: Developing a North-South Korean Parallel Corpus for Machine Translation'으로, 트랜스포머(Transformer) 기반 번역 모델을 활용해 남북한 언어 번역 성능을 크게 향상시켰다.
이번 연구의 핵심은 KISTI NKTech와 통일부 북한자료센터의 문헌을 바탕으로 구축한 남북한 병렬 문장쌍 데이터셋이다. KISTI 최현규 박사는 "남북한 언어 이질화 문제 해결에 실질적인 기여를 했다"며 연구의 의의를 강조했다.
특히 이번 성과는 한동대학교 학부생들의 주도로 이루어졌다는 점에서 주목받고 있다. 한동인공지능연구실(HAIL)의 홍참길 교수는 "학부생들이 데이터 수집부터 모델 분석까지 전 과정을 주도적으로 수행했으며, 그 도전이 국제적으로 인정받았다"고 평가했다.
연구에 참여한 전혜선 학생은 “저자원 언어 연구에 대한 개인적 관심이 남북한 언어 통합이라는 의미 있는 연구로 발전해 매우 뜻깊다”고 전했다.
한편, 연구팀은 개발된 데이터셋을 한동소프트웨어파운데이션과 GitHub를 통해 공개했다. 앞으로 번역 모델 성능 개선과 함께 남북 분단이 대형 언어 모델(LLM)에 미치는 편향성 연구도 진행할 계획이다.
이번 연구는 IT 기술을 활용한 남북 통합 준비의 선도적 사례로 평가받으며, 통일 시대를 준비하는 데 실질적 도구로 활용될 전망이다.
(▶GitHub 페이지: https://github.com/HandongSF/KoreanUnificationParallelCorpus)
▶ 기사제보 및 보도자료 press@cdaily.co.kr
- Copyright ⓒ기독일보, 무단전재 및 재배포 금지