바이오인포매틱스 기업 이노크라스가 KAIST와 공동 연구한 DNA 인공지능 연구 논문 'DNAChunker: Learnable Tokenization for DNA Language Models'가 국제머신러닝학회(ICML) 2026에서 정규 논문으로 선정됐다고 24일 밝혔다.
이번 연구는 DNA 언어모델의 입력 데이터를 효율적으로 처리하기 위한 토크나이징 기술 개발에 초점을 맞췄다. 논문에 소개된 'DNAChunker'는 유전체 서열을 생물학적 특성에 맞춰 동적으로 분할하는 적응형 토크나이저다. 일정 길이의 서열 단위나 정해진 규칙에 따라 데이터를 처리하던 기존 방식과 달리, 유전 정보의 문맥을 스스로 학습해 최적의 분절 방식을 결정하는 구조다. 연구진은 이를 통해 유전체 패턴 표현 효율을 높일 수 있다고 설명했다.
성능 평가 결과, DNAChunker는 1억 7200만 파라미터(매개변수) 크기의 모델로 최신 12억 파라미터급 DNA 언어모델과 동등한 수준의 정확도를 달성해 데이터 처리 효율성을 높인 것으로 나타났다.
이번 연구에서 KAIST는 알고리즘 설계와 모델 구현 및 검증을 담당했으며, 이노크라스는 대규모 컴퓨팅 자원과 기술 아이디어, 임상 환경 적용을 위한 검증 작업을 수행했다.
공동 연구책임자인 이원철 이노크라스 CIO는 “DNA 언어모델의 경쟁력은 유전체 서열을 어떻게 구조화해 AI에 전달하느냐에 달려 있다”며 “DNAChunker는 학습 기반 토크나이징 방식을 통해 유전체 모델링 정교화를 시도했다”고 말했다.
서제희 이노크라스 대표이사는 “이번 ICML 채택은 KAIST와의 협력을 통해 자사의 ‘암 파운데이션 모델(Cancer Foundation Model)’ 개발에 있어 중요한 이정표”라며, “DNAChunker는 생물학적 정보가 반영된 유전체 표현(genome representation) 계층을 제공함으로써, 파운데이션 모델이 단순한 패턴 인식 단계를 넘어 임상적으로 의미 있는 암 해석으로 나아가도록 돕는다. KAIST와 전장 유전체 기반 AI의 정확성과 효율성, 확장성을 강화할 기술을 지속적으로 발전시켜 나갈 것”이라고 전했다.
KAIST 안성수 교수와 한인수 교수는 “DNAChunker는 효과적인 DNA 언어모델을 구축하는 데 있어 서열 표현(sequence representation)이 핵심 과제임을 보여준다”며 “이번 협력은 첨단 AI 방법론을 전장 유전체 분석의 규모 및 실용적 요구와 연결하는 데 도움이 됐다”고 밝혔다.
이노크라스는 전장 유전체(Whole Genome) 데이터 분석 기술을 기반으로 종양 및 희귀질환 분야 연구를 진행하고 있으며, 국내외 의료기관 및 연구기관과 협력을 이어가고 있다. 자세한 내용은 Inocras 홈페이지에서 확인할 수 있다.
배경민 한경닷컴 기자 bkm@hankyung.com