구글 딥마인드 떠난 '알파고 마피아' 이젠 초지능 AI 만든다

와우퀵 앱 - 프리미엄 투자정보

핵심만 담은 실전 투자 정보, 와우퀵! 지금 바로 앱 다운로드하고, 더 편리하게 만나보세요.

입력 2026-03-04 17:04

수정 2026-03-05 00:01

2016년 3월 10일. 서울 광화문 포시즌스호텔 대국실에서 열린 이세돌 9단과 인공지능(AI) ‘알파고’의 두 번째 경기. 알파고가 우중단에 돌 하나를 내려놓자 해설진은 말을 잇지 못했다. “생각지도 못했다” “실수 아닌가”라는 반응이 이어졌다. 인간이 그 수를 둘 확률은 1만분의 1. 당시 평론가들은 ‘악수’라고 평가했다.

하지만 경기가 종반으로 접어들자 이 한 수는 중앙 세력을 장악하는 결정적 기점이 됐다. 알파고는 이미 100수가 넘는 미래를 계산하고 있었다. 당시 구글 딥마인드 연구원으로 현장을 지켜보던 이오안니스 안토노글루 리플렉션AI 공동창업자는 그 순간을 이렇게 기억한다. “처음엔 버그인 줄 알았습니다. 하지만 알파고는 이렇게 말하고 있었죠. ‘아냐, 걱정 마.’”

딥마인드 떠난 ‘알파고 마피아’

이날의 ‘2국 37수’는 인류가 AI를 바라보는 시각을 바꿔놓은 상징적 장면이다. 인간이라면 두지 않을 수라는 평가는 역설적으로 인간 창의성의 한계를 드러냈고, AI는 이를 뛰어넘는 사고방식을 보여줬다. 이후 AI는 이미지 분류를 시작으로 독해, 작화, 작곡까지 영역을 넓히며 인간의 고유 역량을 하나씩 넘어서고 있다. 안토노글루 창업자는 3일(현지시간) 한국경제신문과의 인터뷰에서 “알파고 개발에 쓰인 강화학습을 AI 모델에 적용하면 초인적인 성능이 나타난다”며 “AI가 인간이 발견하지 못한 수학 정리를 증명하거나 새로운 물리 이론, 암 치료법을 찾아내는 ‘연구자 AI’의 시대가 올 것”이라고 말했다.

안토노글루 창업자는 알파고 프로젝트를 시작으로 인간 기보를 전혀 학습하지 않은 ‘알파고 제로’, 바둑 규칙도 모른 채 최고 수준에 도달한 ‘뮤제로’, 구글의 생성형 AI 모델 ‘제미나이’ 개발까지 참여한 핵심 연구자다. 2024년 딥마인드 동료인 미샤 라스킨과 함께 회사를 떠나 리플렉션AI를 창업했다. 목표는 서방 세계의 첨단 오픈소스 프런티어 AI 연구소를 세우는 것이다. 그는 “과학적 진보를 위해서는 연구 결과를 공개하고 다른 연구자가 이를 기반으로 더 나은 연구를 수행할 수 있어야 한다”고 창업 배경을 설명했다.

리플렉션AI는 알파고 프로젝트에 참여한 연구자들이 AI 기술의 최전선을 어떻게 개척하고 있는지를 보여주는 사례다. ‘알파고 마피아’로 불리는 이들은 미국 영국 프랑스 등에서 잇달아 스타트업을 세우고, AI산업의 기반이 된 ‘트랜스포머 모델’ 이후의 기술을 모색하고 있다. 알파고 프로젝트의 수석 연구자였던 데이비드 실버 역시 올해 초 영국 런던에서 AI 연구소 ‘인에퍼블 인텔리전스’를 창업했다. 목표는 ‘초인적 지능’을 구현하는 새로운 AI 패러다임을 찾는 것이다.

실버가 딥마인드를 떠난 배경은 지난해 4월 발표한 논문 ‘경험의 시대에 온 것을 환영합니다(Welcome to the Era of Experience)’에서 드러난다. 그는 “AI는 최근 몇 년간 방대한 인간 데이터를 학습하고 미세 조정을 통해 놀라운 발전을 이뤘지만 인간을 모방하는 방식만으로는 많은 핵심 문제에서 초인적 지능에 도달하기 어렵다”고 지적했다.

AI 혁명의 중심, 트랜스포머

이 문제를 이해하려면 2017년으로 돌아가야 한다. 그해 구글 브레인 연구진 8명이 발표한 논문 ‘어텐션만으로 충분하다(Attention Is All You Need)’는 AI 연구 지형을 완전히 바꿔놨다. 이 논문은 오늘날 챗GPT 제미나이 클로드 등 대규모언어모델(LLM)의 바탕이 된 트랜스포머 모델을 제시했다. 트랜스포머의 핵심은 ‘어텐션’ 메커니즘이다. 문장 속 단어 간 관계를 한꺼번에 파악하게 하는 방식이다. 과거 AI가 책을 읽듯 문장을 순서대로 처리했다면 트랜스포머는 책 전체를 펼쳐놓고 핵심 단어 간 연결을 동시에 계산한다.

이 방식은 데이터를 병렬로 처리할 수 있게 하면서 AI 발전 속도를 폭발적으로 끌어올렸다. 수백 년 걸릴 데이터 학습이 수개월로 줄었다. 동시에 병렬 연산에 특화된 그래픽처리장치(GPU)가 AI 인프라의 핵심으로 떠올랐다. 대규모 데이터를 학습할 수 있게 되자 AI는 읽기, 쓰기, 번역, 코딩, 이미지 생성 등 광범위한 과제를 수행하는 범용 기술로 진화했다. 현재 시장에 등장한 AI 챗봇 대부분이 트랜스포머 기반인 이유도 여기에 있다.

하지만 실버는 이 모델이 구조적 한계에 직면했다고 본다. 그는 “수학, 코딩, 과학 등 핵심 분야에서 인간 데이터로부터 추출할 수 있는 지식이 빠르게 고갈되고 있다”고 말했다. 데이터 규모를 키우면 AI 성능이 올라간다는 ‘스케일링 법칙’이 더 이상 작동하지 않을 수 있다는 지적이다. 그가 제시한 대안은 알파고를 탄생시킨 강화학습으로의 회귀다.

강화학습은 보상 시스템을 통해 AI가 스스로 행동 전략을 학습하도록 만드는 방식이다. 인간이 만든 데이터를 익히는 기존 방식과 달리 AI가 환경과 상호작용하며 새로운 데이터를 생성한다.

실버는 “새로운 수학 정리와 과학적 돌파구는 과거 데이터만으로는 발견할 수 없다”며 “AI 에이전트가 환경과 상호작용하며 생성한 경험 데이터를 학습해야 초인적 지능이 가능하다”고 설명했다. 알파고가 수십만 번의 ‘자기 대국’을 통해 인간 최고 기사를 넘어섰듯 AI 역시 스스로 경험을 축적하며 지능을 발전시켜야 한다는 것이다.

알파고 논문의 핵심 저자이자 ‘오픈AI의 아버지’로 불리는 일리야 수츠케베르 세이프슈퍼인텔리전스(SSI) 최고경영자(CEO)도 트랜스포머 이후의 AI를 찾고 있다. 그가 내놓은 해법은 인간 직관과 비슷한 ‘가치함수’다. 인간이 AI보다 훨씬 적은 데이터로 학습하는 것은 감정이라는 피드백 시스템이 있기 때문이라는 설명이다. 예컨대 운전을 배울 때 인간은 ‘위험하다’(공포) ‘잘하고 있다’(만족) 같은 감정 신호를 통해 행동을 빠르게 조정한다.

알파고 프로젝트 멤버인 로랑 시프르가 공동 창업한 스타트업 H는 컴퓨터를 대신 조작하는 AI 에이전트를 개발 중이다. 이 회사 역시 모델이 자체적으로 데이터를 만들고 경험에서 배워나가는 방식을 채택했다. 알파고 이후 10년 만에 AI산업의 중심축이 ‘데이터를 학습하는 AI’에서 ‘경험을 축적하는 AI’로 이동하고 있다.

▶강화학습

행동심리학에서 영감을 얻은 기계학습 방식. 인공지능(AI)이 주어진 환경 내에서 선택 가능한 행동 중 보상을 최대화하는 방식을 스스로 찾아가는 학습법이다.

▶트랜스포머 모델

문장 속 단어 등 데이터들의 관계를 추적해 맥락과 의미를 학습하는 신경망 기술. 보상을 좇는 강화학습과 달리 중요도를 분석해 특정 단어 다음에 나올 단어를 예측한다.

실리콘밸리=김인엽 특파원 inside@hankyung.com

구글 딥마인드 인간 와우넷 오늘장전략 와우퀵 앱 실전주식 투자정보. onAir, Editor's Pick

싫어요

후속기사 원해요

와우퀵N 구독신청 한경지면 구독신청

실시간 관련뉴스