구글이 제미나이3 내 특화 추론 모드인 ‘제미나이3 딥싱크’의 대규모 업데이트를 12일(현지시간) 공개했다. 인공지능(AI)의 활용 무대를 대화형 서비스에서 연구·개발(R&D) 인프라로 확장하겠다는 전략으로 해석된다.
구글은 이번 업데이트의 핵심으로 추론 성능 도약을 내세웠다. 학술·과학 분야 추론 능력을 측정하는 주요 벤치마크(성능 평가)에서 기존 모델과 경쟁 모델의 기록을 대부분 경신했다는 설명이다. 논리적 엄밀성이 요구되는 수학·과학 문제부터 직관과 추상적 사고가 필요한 영역까지 하나의 모델로 처리할 수 있는 점이 특징이다.
대표 지표로 꼽히는 ‘인류의 마지막 시험(HLE)’에서는 외부 도구를 사용하지 않은 상태에서 48.4%를 기록했다. 박사급 연구자 수준의 문제로 구성된 이 시험은 단순 계산과 패턴 인식만으로는 풀기 어려운 고난도 추론 능력을 요구한다. 업계에서는 이 지표가 50%를 넘어서면 AI가 인간 전문가의 사고 영역에 본격 진입한 것으로 평가하는 만큼 딥싱크가 그 문턱에 근접했다는 분석이 나온다. 추상적 사고 역량을 평가하는 ARC-AGI-2에서도 84.6%를 기록해 주요 경쟁 모델을 크게 앞섰다.
과학 분야 성과도 두드러졌다. 국제물리올림피아드와 국제화학올림피아드 문제에서 각각 87.7%, 82.8%의 정답률로 금메달권 성능을 입증했다. 고급 이론물리학 이해도를 측정하는 CMT 벤치마크에서도 50.5%를 기록했다.
구글은 이번 업데이트에서 ‘연구 맥락 이해’ 능력을 강조했다. 과학자·연구원들과의 협업을 통해 명확한 해답과 가이드라인이 없는 연구 과제를 풀 수 있도록 모델을 고도화했다고 설명했다. 일부 연구자에게 사전 공개한 딥싱크는 동료 평가를 통과한 논문에서도 발견되지 않은 미묘한 논리적 오류를 찾아냈다. 정답 도출을 넘어 논증과 추론 과정 자체를 점검하는 단계에 진입했다는 의미다.
구글 측은 “연구자가 복잡한 데이터를 해석하고 물리 시스템을 모델링할 수 있도록 앞으로도 지원할 것”이라고 밝혔다.
안정훈 기자 ajh6321@hankyung.com