'뉴욕의 인기 피자토핑'을 벵골어로 묻고 답하는 구글 AI

입력 2022-05-12 11:18
'뉴욕의 인기 피자토핑'을 벵골어로 묻고 답하는 구글 AI

언어모델 '팜' 벵골어-영어 번역훈련 안했어도 척척 대답

인간과 자연스럽게 대화하는 언어모델 '램다'도 선보여



(샌프란시스코=연합뉴스) 정성호 특파원 = 구글이 11일(현지시간) 스스로 학습하고 사고해 사람의 질문에 답하는 자연언어 처리 모델 'PaLM'(팜·Pathways Language Model)을 공개했다.

순다르 피차이 구글 최고경영자(CEO)는 이날 미국 캘리포니아주 마운틴뷰 본사에서 연 '구글 I/O(연례 개발자회의) 2022'에서 인공지능(AI)을 이용한 언어 모델인 팜을 소개하면서 "매우 잠재력 있는 기술"이라고 밝혔다.

피차이 CEO는 "현존하는 가장 큰 언어 모델이고, 5천400억 개 매개변수(parameter)를 이용해 훈련한 모델"이라며 "암호를 만들고, 말로 된 수학 문제를 풀고, 농담을 설명하는 등의 혁신을 이룬 모델"이라고 설명했다.

피차이 CEO는 특히 '사고의 연쇄 유도'란 훈련 방식과 결합하면 이 언어 모델의 가능성은 매우 유망하다고 자랑했다.

사고의 연쇄 유도란 복잡한 문제를 해결할 때 단계별로 풀이 과정을 상세히 설명해주는 것이다.

일례로 이 언어 모델에 "로저는 테니스공 5개를 갖고 있는데 한 캔에 3개가 든 캔을 2개 샀어. 그럼 로저가 가진 공은 전부 몇 개지?"라고 물은 뒤 "답은 11"이라는 지침을 준 다음 "5월은 시간으로 치면 얼마나 되냐"라고 묻자 "720"이라고 틀린 답을 내놨다.

이번에는 이 언어 모델에 중간 풀이 과정이 들어간 지침을 줬다. "처음에 5개가 있었고, 한 캔에 3개씩 2캔이라면 6개니 이를 더하면 11개"라고 설명한 뒤 똑같은 질문을 던지자 언어 모델은 "5월은 날짜가 31개이니 24X31=744"라는 풀이 과정까지 제시하며 744란 올바른 답을 내놨다.

피차이 CEO는 "이런 사고의 연쇄 유도는 정확도를 크게 높여준다"며 팜에 그냥 수학 문제를 줬을 때는 정답률이 18%였는데 사고의 연쇄 유도 지침을 주자 정답률이 58%로 올라갔다고 말했다.

그는 또 이 모델이 비(非)영어 사용자들이 인터넷에서 필요한 정보를 찾기 수월하게 해줄 수도 있다고 밝혔다.

그러면서 벵골어로 '뉴욕에서 인기 있는 피자 토핑이 뭐냐'라고 묻자 팜이 '페퍼로니와 소시지, 버섯'이라고 역시 벵골어로 답하는 것을 시연해 보여줬다.

'뉴욕에서 인기 있는 토핑'에 대한 정보가 벵골어로 쓰여졌을 가능성이 희박하다는 점을 생각하면, 팜은 영어로 이 정보를 찾은 뒤 벵골어로 답한 것이다.



피차이 CEO는 "특히 놀라운 것은 팜이 영어와 벵골어 텍스트를 나란히 비교해서 본 적이 없다는 것"이라며 "어떤 질문에 답하거나, 번역을 하도록 훈련된 적도 없지만 이 모델은 자신의 모든 능력을 조합해서 이 문제에 정확히 답했다"고 말했다.

피차이 CEO는 다른 복잡한 문제에 대해서도, 다른 언어로 이 기술을 확장해 적용할 수 있다고 전망했다.

피차이 CEO는 이날 또 사람과 자연스러운 대화가 가능한 생성형 언어 모델 '램다'(LaMDA, Language Model for Dialogue Applications)의 후속 버전인 '램다 2'를 만들었다고 밝혔다. 구글은 지난해 I/O 행사에서 램다를 처음 공개했다.

구글은 램다 2를 이용해 다양한 시험을 하고 사람들로부터 피드백을 받을 수 있도록 'AI 테스트 키친'(g.co/AI Test Kitchen)을 만들어 직원들을 상대로 테스트하고 있다. 몇 달 내로 일반인에게도 오픈할 계획이다.

AI 테스트 키친은 현재 '상상해 봐'(imagine it), '그거에 대해 말해 봐'(talk about it), '목록을 대봐'(list it) 등 3가지 기능을 시험 중이다.

'상상해 봐'는 창의적인 아이디어를 주면 램다가 이와 관련한 설명이나 묘사를 내놓는 것이다. '깊은 바닷속을 탐험하는 주인공'을 주제로 던지자 램다는가장 깊은 해저인 '마리아나 해구'에 대한 설명을 내놨다.

그러면서 잠수함, 발광형 생물 같은 연관어도 제시했다.

피차이 CEO는 잠수함이나 발광 생물은 우리가 이 언어 모델에 데이터로 프로그램하지 않은 것"이라며 "AI가 훈련용 데이터로 합성해낸 것"이라고 말했다.

'그거에 대해 말해 봐'는 램다가 특정 주제를 벗어나지 않고 계속 대화를 이어가도록 만든 시험 모델이다. 개에 대해 얘기하다 크리켓 경기로 화제를 옮기자 램다는 '개에 정신이 팔려서 그 경기를 못 봤다. 하지만 개가 크리켓을 한다면 왜 잘할지 말해줄 수 있다'며 다시 개로 화제를 돌렸다.

'목록을 대봐'는 램다가 복잡한 목표·주제를 관련성 있는 하부주제로 분해할 수 있는지를 시험한다. '식물 정원을 만들고 싶다'고 묻자 '재배할 식물 목록을 만들어라', '이 지역에서 뭐가 가장 잘 자라는지 조사해라', '뒷마당에서 정원으로 쓸 위치를 선택하라', '정원 배치를 짜봐라' 등의 하위 작업을 제시했다.

피차이는 "대화와 자연언어 처리는 모든 사람이 컴퓨터에 접근할 수 있도록 하는 강력한 수단"이라며 "램다를 사람들에게 유용하게 만드는 여정의 시작 단계에 있다"고 말했다.

sisyphe@yna.co.kr

(끝)

<저작권자(c) 연합뉴스, 무단 전재-재배포 금지>