메타, 성경 활용해 4천개 언어 수집 프로젝트 시작

1100개 언어로 ‘신약성경 읽기’ 데이터 생성

©Kira-Yan/ iStock

미국의 페이스북과 인스타그램의 모회사인 메타(Meta)가 성경과 다른 종교 문헌을 활용하여 4000개 이상의 언어를 처리하고 보존하기 위한 프로젝트 계획을 발표했다.

미국 크리스천포스트(CP)에 따르면, 메타 인공지능(AI) 연구팀은 ‘대규모 다국어 음성’(Massively Multilingual Speech, 이하 MMS) 프로젝트의 자료 수집을 위해 성경 및 기타 종교 문헌을 활용했다. 이는 수천 개의 언어에 대한 데이터 수집을 위한 것으로, 기존의 음성 데이터 세트는 100개 이상의 언어를 처리하지 못했다.

연구팀은 세계 각지에서 번역된 성경 및 오디오 녹음본을 활용하여 1100개 이상의 언어로 된 신약 성경 읽기 데이터 세트를 생성했으며, 각 언어마다 약 32시간의 데이터가 포함됐다.

메타는 신약성경 27권과 260장을 처리하기 위해 바이블닷컴(Bible.com) 및 고투바이들(GoTo.Bible) 및 페이스컴즈바이히어링(FaithComesByHearing)의 데이터를 활용했으며, 여기에는 원문 본문과 오디오 녹음이 수록되어 있다.

메타 AI 팀은 이후에 “다양한 다른 기독교 종교 서적의 미분류된 녹음을 활용하여 이 작업을 발전시켰다”고 밝혔다. 녹음본은 주로 남성 화자에 의해 진행되었지만 연구팀은 “언어 모델이 남성과 여성 목소리에 동일한 수준으로 잘 작동한다”고 밝혔다.

또 연구팀은 “기독교 윤리학자들과 협의하에 진행했다. 이들은 대부분의 기독교인들이 신약 성경 및 번역본이 신성하여 기계 학습에 사용하기에 무리라고 보지 않을 것이라고 결론지었다”라며 “다만 코란은 번역이 불가한 것으로 여겨졌다”고 했다.

해당 논문은 2019년 CMU 윌더니스(CMU Wilderness) 프로젝트의 사례를 소개하며, 700여개 언어에 대한 음성 합성 모델을 생성하는 데 성경이 사용되었음을 강조했다. 아울러 MMS 프로젝트가 “기계 학습 모델을 훈련하고 평가하기 위해 신약을 활용해 온 오랜 연구의 연장선에 있다”고 연구팀은 전했다.

논문은 또 종교 기반 훈련 데이터가 언어 모델에 “특정 세계관”에 대한 편향을 생성할 수 있는 가능성에 대해 언급했다. 이에 대해 AI 팀은 “이러한 위험성을 낮게 평가한다”며 “해당 모델이 생성하는 언어는 다른 도메인에서 훈련된 모델과 비교하여 거의 편향을 보이지 않는다”고 결론지었다.

메타 측은 “세계의 많은 언어가 사라질 위기에 처해 있으며, 현재의 음성 인식 및 음성 생성 기술의 한계는 이러한 추세를 가속화시킬 것”이라며 “우리는 기술이 정반대 효과를 가져오는 세상을 상상하고 있다. 사람들이 선호하는 언어로 말하고 정보에 접근하고 기술을 사용함으로써 언어를 활발히 사용하여 언어 보존을 장려한다”고 했다.

인공지능에 성경이 활용된 것은 이번이 처음이 아니다. 2020년 6월, 기독교 묵상 앱인 소울타임(Soultime)의 제작자들은 당시 세계 최초로 인공지능 음성으로 성경 전체를 낭독하는 오디오 버전을 출시했다. 해당 앱에는 100시간 분량의 오디오 성경이 수록되어 있다.

<크리스천 생활정보 마당>

속보