기존 대규모언어모델(LLM)은 영어권 중심 데이터로 학습돼 한국어와 한국의 독특한 사회·문화적 맥락을 반영하는 데 한계가 있었다. KT는 이 점에서 사업 방향을 찾았다. 29일 KT에 따르면 SOTA K는 데이터 주권 보호, 한국 문화 이해, 모델 선택권 보장, 안전하고 책임감 있는 AI 등 국내에서 필요로 하는 4대 AI 요건을 구현했다. 한국어 경어법·방언은 물론 법률·금융·역사, 국내 특정 산업군에서 사용하는 전문 용어까지 국내 비즈니스 환경에서 실용성을 높인 게 특징이다.
KT는 모델 출시 전 자체 데이터셋을 구축해 정량 평가와 정성 평가를 했다. 그 결과 SOTA K는 한국어 이해, 생성, 추론, 사회·문화, 한국 전문 지식 등 주요 지표에서 GPT-4o 대비 우위를 보였다고 밝혔다.
최지희 기자 mymasaki@hankyung.com
