AI 기술기업 비드래프트(대표 김민식)는 과학추론 특화 대규모언어모델(LLM) 'Darwin-398B-JGOS'가 글로벌 벤치마크인 GPQA Diamond에서 90.9%의 정답률을 기록했다고 밝혔다.
GPQA Diamond는 생물학·물리학·화학 등 과학 분야의 전문 지식과 추론 능력을 평가하는 벤치마크다. Darwin-398B-JGOS는 전체 198개 문항 가운데 180개 문항에 정답을 제시했다.
최근 생성형 AI 업계에서는 범용 모델뿐 아니라 과학·의료·연구 등 특정 분야에 특화된 모델 개발도 확대되는 추세다. 이에 따라 전문 분야 추론 능력을 평가하는 벤치마크 결과에도 관심이 모이고 있다.
비드래프트는 이번 평가에서 다수결 투표 방식이나 테스트타임 연산(Test-Time Compute) 보강 기법을 적용하지 않았다고 설명했다. 단일 그리디 디코딩 방식으로 평가를 진행했으며, 측정 조건은 모델카드를 통해 공개했다.
Darwin-398B-JGOS는 비드래프트의 모델 개발 플랫폼 'Darwin V9'을 기반으로 개발됐다.
약 400B 규모의 Mixture-of-Experts(MoE) 구조를 적용했으며, 실제 추론 과정에서는 토큰당 약 17B 규모의 활성 파라미터가 사용된다고 회사 측은 설명했다.
Darwin V9은 기존에 학습된 여러 AI 모델의 기능을 분석해 목적에 맞게 재구성하는 방식의 개발 플랫폼이다. 비드래프트는 이번 모델이 추론·코딩·언어 분야에 특화된 모델의 일부 구조를 조합해 개발됐다고 밝혔다.
회사는 자체 AI 아키텍처 'AETHER'도 개발하고 있다. 해당 모델은 서로 다른 어텐션 메커니즘을 결합한 구조를 적용했으며, 관련 특허 8건을 보유하고 있다고 설명했다.
비드래프트에 따르면 2026년 6월 기준 Darwin 기반 및 파생 모델은 700종 이상이며, 누적 다운로드 수는 100만 회에 가까운 수준이다.
또 Darwin 기반 한국어 거대언어모델 'JGOS-31B-Citizen'은 과학기술정보통신부와 한국지능정보사회진흥원(NIA)이 운영하는 K-AI 리더보드에서 종합 1위를 기록했다고 회사 측은 밝혔다.
비드래프트는 서울AI허브 입주기업으로 정부 첨단 GPU 지원 사업과 정보통신산업진흥원(NIPA) AI 컴퓨팅 활용 사업 등에 참여하고 있다.
김민식 비드래프트 대표는 "이번 결과를 바탕으로 연구 및 산업 현장에서 활용할 수 있는 AI 모델 개발을 이어갈 계획"이라고 말했다.
김민주 기자 minjoo@hankyung.com