오픈AI의 최신 인공지능(AI) 모델 GPT-5.4가 5일(현지시간) 공개됐다. 오픈AI는 “전문가 작업에 최적화된 가장 강력하고 효율적인 모델”이라며 AI의 컴퓨터 활용 능력을 전면에 내세웠다. 기업용 AI 시장을 노린 행보로, 실제로 업무용 지표들은 경쟁 AI모델보다 우월하게 나왔다. 그러나 범용 지능에선 구글의 제미나이와 격차를 극복하진 못했다는 평가가 나오고 있다.
이날 출시한 GPT-5.4와 GPT-5.4 프로는 추론·코딩·AI에이전트 등 여러 개의 모델을 하나로 통합한 것이 특징이다. 이전에는 챗GPT에서 질문할 때는 GPT-5.2 사고 모델을, 코딩할 때는 GPT-5.3 코덱스 등을 따로 불러와야 했다. 이 회사의 범용 AI 모델 최초로 AI가 직접 브라우저를 검색·클릭하고 텍스트를 입력하는 ‘컴퓨터 활용’ 기능도 적용했다.
AI가 마우스·키보드를 조작해 문서 작업·그래픽 편집을 할 수 있는지 평가하는 OS월드-인증에서는 75%의 성공률을 기록해 GPT-5.2(47.3%)를 훌쩍 뛰어넘었다. 스프레드시트, 프레젠테이션, 엑셀 등 소프트웨어 업무를 AI로 할 때 뛰어난 작업 효율을 기대할 수 있다는 얘기다. 법률 서류·엔지니어링 설계·고객 지원 등 44개 직종의 업무 능력을 확인하는 GDPval 테스트에서도 GPT-5.4는 83%의 문항에서 전문가와 대등하거나 더 뛰어난 성과를 냈다.
여러 웹사이트를 거쳐 검색해야 정답을 찾을 수 있는 지문 1266개로 구성된 ‘브라우저컴프’ 지표에선 GPT-5.4는 89.3%로 구글 제미나이 3.1프로(85.9%) 앤스로픽 클로드 오퍼스4.6(84%)보다 높은 성공률을 기록했다. 코딩 문제해결 능력을 매기는 ‘SWE-벤치 프로 퍼블릭’ 지표 정답률도 57.7%로 제미나이3.1프로(54.2%)를 상회했다. 오픈AI는 “GPT-5.2 대비 개별 답변에서 오류가 발생할 확률은 33%, 전체 응답에 오류가 포함될 확률은 18% 낮아졌다”고 공개했다.
오픈AI가 GPT-5.4를 ‘업무용 AI’로 내세우고 있는 건 기업용 AI 시장에서 강력한 경쟁자로 떠오른 앤스로픽의 점유율을 뺏어오기 위해서다. 앤스로픽은 자사 AI 모델 클로드를 업무에 접목하기 위해 법률·데이터 등 11개 영역의 플러그인(추가 기능)을 최근 내놨다. 클로드가 서비스형 소프트웨어(SaaS) 시장을 대체할 수 있다는 공포에 관련 기업들의 주가가 급락한 배경이다. 오픈AI도 이날 팩트셋, S&P글로벌, 무디스 등 금융 데이터 제공업체와 파트너십을 체결하며 해당 시장 진출을 본격화했다. 오픈AI는 “재무 모델링, 시나리오 분석, 데이터 추출 및 심층 연구 등 분석가도 며칠씩 걸리던 복잡한 업무를 GPT-5.4로 획기적으로 개선했다”고 밝혔다.
다만 ‘인류 마지막 시험(HLE)’ 정답률은 39.8%(GPT-5.4프로는 42.7%)로 제미나이 3.1프로(45.9%)를 뛰어넘지 못했다. 수학·물리학·인문학 등 다방면의 2500개 문제로 구성된 이 지표는 AI의 범용 지능을 측정하는 대표 척도로 쓰였다. GPT-5.4 모델은 챗GPT 유료 가입자에게 즉시 제공된다. 기존 모델인 GPT-5.2 사고 모델은 3개월간 유지된 후 6월5일 서비스가 종료된다.
실리콘밸리=김인엽 특파원 inside@hankyung.com