이날 출시한 GPT-5.4와 GPT-5.4 프로는 추론·코딩·AI에이전트 등 여러 개의 모델을 하나로 통합한 것이 특징이다. 이전에는 챗GPT에서 질문할 때는 GPT-5.2 사고 모델을, 코딩할 때는 GPT-5.3 코덱스 등을 따로 불러와야 했다. 이 회사의 범용 AI 모델 최초로 AI가 직접 브라우저를 검색·클릭하고 텍스트를 입력하는 ‘컴퓨터 활용’ 기능도 적용했다.
AI가 마우스·키보드를 조작해 문서 작업·그래픽 편집을 할 수 있는지 평가하는 OS월드-인증에서는 75%의 성공률을 기록해 GPT-5.2(47.3%)를 훌쩍 뛰어넘었다. 스프레드시트, 프레젠테이션, 엑셀 등 소프트웨어 업무를 AI로 할 때 뛰어난 작업 효율을 기대할 수 있다는 얘기다. 법률 서류·엔지니어링 설계·고객 지원 등 44개 직종의 업무 능력을 확인하는 GDPval 테스트에서도 GPT-5.4는 83%의 문항에서 전문가와 대등하거나 더 뛰어난 성과를 냈다.여러 웹사이트를 거쳐 검색해야 정답을 찾을 수 있는 지문 1266개로 구성된 ‘브라우저컴프’ 지표에선 GPT-5.4는 89.3%로 구글 제미나이 3.1프로(85.9%) 앤스로픽 클로드 오퍼스4.6(84%)보다 높은 성공률을 기록했다. 코딩 문제해결 능력을 매기는 ‘SWE-벤치 프로 퍼블릭’ 지표 정답률도 57.7%로 제미나이3.1프로(54.2%)를 상회했다. 오픈AI는 “GPT-5.2 대비 개별 답변에서 오류가 발생할 확률은 33%, 전체 응답에 오류가 포함될 확률은 18% 낮아졌다”고 공개했다.
오픈AI가 GPT-5.4를 ‘업무용 AI’로 내세우고 있는 건 기업용 AI 시장에서 강력한 경쟁자로 떠오른 앤스로픽의 점유율을 뺏어오기 위해서다. 앤스로픽은 자사 AI 모델 클로드를 업무에 접목하기 위해 법률·데이터 등 11개 영역의 플러그인(추가 기능)을 최근 내놨다. 클로드가 서비스형 소프트웨어(SaaS) 시장을 대체할 수 있다는 공포에 관련 기업들의 주가가 급락한 배경이다. 오픈AI도 이날 팩트셋, S&P글로벌, 무디스 등 금융 데이터 제공업체와 파트너십을 체결하며 해당 시장 진출을 본격화했다. 오픈AI는 “재무 모델링, 시나리오 분석, 데이터 추출 및 심층 연구 등 분석가도 며칠씩 걸리던 복잡한 업무를 GPT-5.4로 획기적으로 개선했다”고 밝혔다.
다만 ‘인류 마지막 시험(HLE)’ 정답률은 39.8%(GPT-5.4프로는 42.7%)로 제미나이 3.1프로(45.9%)를 뛰어넘지 못했다. 수학·물리학·인문학 등 다방면의 2500개 문제로 구성된 이 지표는 AI의 범용 지능을 측정하는 대표 척도로 쓰였다. GPT-5.4 모델은 챗GPT 유료 가입자에게 즉시 제공된다. 기존 모델인 GPT-5.2 사고 모델은 3개월간 유지된 후 6월5일 서비스가 종료된다.
실리콘밸리=김인엽 특파원 inside@hankyung.com