무너진 바벨탑을 다시 세우려는 시도는 컴퓨터의 등장과 함께 시작됐다. 2차 세계대전 당시 기계를 이용해 독일군의 암호를 해독하려는 시도가 이뤄졌다. 기계 번역이라는 단어를 만든 것은 미국의 수학자 워런 위버다. 그는 1949년 컴퓨터 알고리즘을 이용해 특정 언어를 다른 나라의 말로 바꿀 수 있을 것이란 내용의 짧은 논문을 내놨다.
IBM 컴퓨터로 250개 단어 번역
기계 번역이 널리 알려진 계기는 1954년 1월 7일 미국 조지타운대와 IBM의 공개 실험이다. 당시 실험에선 거대한 IBM 701 컴퓨터에 러시아어로 된 문장 60개를 입력하자 영어로 번역된 결과물이 출력됐다. 이 모습을 보고 언론들은 찬사를 아끼지 않았다. ‘기적’이라는 표현까지 나왔다. 반응에 고무된 연구진은 3~5년 안에 기계 번역이 대중화될 것이라고 호언장담했지만 현실은 그렇지 못했다.당시 사용된 기술은 ‘규칙 기반 기계 번역’으로 불린다. 특정 단어와 배열 등에 대해 규칙을 만들어 입력하면 기계가 이를 그대로 따라 하는 방식이다. 조지타운대의 공개 실험에는 6개 문법 규칙과 250개 어휘로 구성된 시스템이 활용됐다. 이 범위를 조금만 벗어나도 제대로 된 결과물이 나오지 않았다.
인공신경망·생성 AI로 한계 도전
활용 가능한 수준의 기계 번역 기술이 등장한 것은 반세기 뒤의 일이다. 2000년대 들어 ‘통계 기반 번역’이 등장하면서 사람이 쓸 수 있는 결과물이 나오기 시작했다. 이 방식은 다른 두 언어로 쓰인 수많은 문장을 기계가 학습한 뒤 주어진 상황에서 들어갈 확률이 가장 높은 단어를 제시한다. 단어 단위로 시작해 구(句) 단위로 확대됐다. 초창기의 구글 번역이 이 방식을 썼다. 어순이 비슷한 언어를 번역할 때는 자연스러운 결과물을 얻을 수 있지만 그렇지 않으면 결과물의 퀄리티가 급락한다는 단점이 있다. 구글의 창업자 세르게이 브린이 2004년 한국의 구글 팬이 보낸 메일을 번역했더니 “The sliced raw fish shoes it wishes. Google green onion thing!”이란 말도 안 되는 결과물이 나와서 번역 서비스 개발에 나섰다는 일화도 있다.(원문은 ‘회신 바랍니다, 구글 파이팅!’ 정도로 추측된다.)현재 대세 기술은 인공지능(AI)을 활용한 ‘인공신경망 기계 번역’이다. 단어나 구에서 더 나아가 문장 전체를 기준으로 번역한다. 문장의 맥락을 이해하기 때문에 문법 규칙이 다르거나 어순이 정반대여도 괜찮다. 현재의 구글 번역과 네이버의 파파고, 딥엘 등 주요 번역 서비스가 이 방식을 쓴다. 구글 번역은 133종, 딥엘은 31종, 파파고는 15종의 언어를 번역할 수 있다.
방대한 양의 데이터를 기반으로 한 초거대 AI도 번역에서 뛰어난 성능을 보인다. 단순히 언어에 담긴 정보를 다른 언어로 바꾸는 데 그치지 않고 비즈니스 이메일, 일상 대화 등 다양한 상황에 알맞은 표현으로 바꿔주기도 한다. 누구나 모든 언어와 정보에 접근할 수 있는 날이 머지않았다.