바티칸 서고 비밀 풀리나…AI 통해 사료 해독 추진

입력 2018-05-02 16:56
바티칸 서고 비밀 풀리나…AI 통해 사료 해독 추진

(서울=연합뉴스) 유영준 기자 = 인공지능(AI) 등 첨단 과학을 통해 그동안 베일에 싸여온 바티칸(교황청) 소장 사료들의 내용이 공개될 전망이다.

'바티칸 비밀서고'(VSA)는 사상 최대의 사고(史庫)로 불릴 만큼 방대한 분량의 역사적 자료들이 소장돼 있으나 대부분 손으로 쓴 난해한 문체로 독해 상의 어려움을 겪어왔다.

이 때문에 지금까지 소장 규모에 비해 극히 일부만 해독돼 연구자들에 공개된 상태이며 따라서 양과 질면에서 엄청난 규모에도 불구하고 실제 이용가치는 미미하다는 비판을 받고 있다.

전 세계 학자들이 만약 사료들을 살펴보고 싶다면 바티칸에 사료접근 특별 신청을 내고 직접 그곳에 들어가 손으로 하나하나 뒤적여야 한다.

바티칸 사도도서관 옆, 그리고 시스티나 성당 바로 북쪽 바티칸 성벽 내에 있는 VSA는 12세기 동안에 걸쳐 수집된 무려 53마일(85km) 길이의 서가가 비치돼 있다.

종교개혁가 마르틴 루터를 파문한 당시 교황의 교서와 스코틀랜드 메리 여왕이 처형되기 전 당시 식스토 5세 교황에게 보낸 구명 요청 서한 등 다수의 역사적 문서들이 소장돼 있다.

최근 방대한 VSA 사료들을 '스캔'해 공개하기 위한 프로젝트가 이탈리아 과학자와 바티칸 전문가에 의해 진행 중이라고 시사지 애틀랜틱이 지난달 30일 전했다.

'코디체 라티오'(Codice Ratio)로 불리는 새로운 프로젝트는 인공지능(AI)과 광학문자인식(OCR)을 혼합한 첨단 소프트웨어를 이용, 사료들을 샅샅이 뒤져 그 기록사본을 사상 처음으로 공개하는 계획이다.

만약 이 프로젝트가 성공을 거두면 이 기술은 아직 미공개 상태인 전 세계 다수다른 사료들을 독해하는 데도 이용될 수 있을 것이다.

OCR 기술은 그동안 책과 다른 인쇄물을 스캔하는 데 이용돼왔으나 대부분 손으로 쓴 VSA 사료들에는 적합지 않은 것으로 지적됐다.

OCR은 이미지 스캔으로 얻을 수 있는 문서의 활자 영상을 컴퓨터가 편집 가능한 문자코드 등의 형식으로 변환하는 소프트웨어의 일종이다.

그러나 이 기술은 조판형 텍스트(typeset text)에 효율적이며 대부분의 바티칸 사료처럼 손으로 직접 쓴 문서의 경우에는 그 효과가 미미하다. 특히 손으로 쓴 문서의 경우 OCR로는 단어의 시작과 끝, 문자 사이 공간을 구분하는 것이 힘든 것으로 나타났다.

일부 컴퓨터 과학자들은 이러한 문제점을 극복하기 위해 문자 대신 단어 전체를 인식할 수 있는 OCR을 개발해냈으며 기술적으로 훌륭한 성능을 보였다.

그러나 엄청난 분량의 다양한 단어 이미지를 인식하기 위해서는 방대한 메모리 은행이 필요했다.



또 손으로 내갈겨 쓴 다양하고 독특한 서체를 해독하기 위해서는 중세 라틴어 단어 하나하나에 대한 여러 개의 이미지도 필요했다.

코디체 라티오 프로젝트에서는 OCR에 대한 새로운 접근법을 통해 이러한 문제점을 극복하고 있다.

로마 트레(Tre)대학과 VSA 소속 4명의 과학자는 '조각분할'로 불리는 혁신방법을 개발해냈다. 단어를 문자가 아닌 개별 필체에 유사한 것들로 분해하는 방식이며 마치 퍼즐 조각 맞추기 방식으로 문자를 재구성해 내는 것이다.

가능한 모든 형태의 문자와 단어, 글씨체 이미지를 구분하는 소프트웨어를 개발해냈고 '교육을 받은' 소프트웨어가 자체 판단으로 단어 퍼즐 조각을 조립해냈다.

이러한 연마 작업을 거친 OCR은 자체적으로 일부 텍스트를 독해하는 인공지능 (AI)역할을 수행하고 있다.

과학자들은 우선 이 소프트웨어에 1만8천 쪽의 유럽 왕실과 궁중 서한들을 주입했다.

초기 성과는 엇갈리고 있다. 일부 단어 독해에 오류가 나타나고 있다.

그러나 지금까지 이 소프트웨어를 통해 손으로 쓴 문자의 96%가 해독됐다. 또 비록 불완전하지만 유용한 정보를 제공해주고 있는 것으로 평가되고 있다.

다른 모든 인공지능과 마찬가지로 이 소프트웨어도 텍스트 독해 작업을 거칠수록 능력이 개선될 것으로 전망되고 있다.

그리고 이러한 독해 방식은 조만간 다른 언어로 된 문서에도 손쉽게 적용될 수 있을 것으로 전망되고 있다.

마치 구글 북스(Google Books)가 편지와 신문, 일기 등 인쇄물의 모든 내용을 전 세계 연구자들에게 제공한 것처럼 연구자들이 조만간 인공지능의 도움으로 난해한 바티칸 고문서에 접근할 수 있을 것으로 기대된다.

yj3789@yna.co.kr

(끝)

<저작권자(c) 연합뉴스, 무단 전재-재배포 금지>