한국경제신문 첨단 테크 담당 기자입니다. 100여 년 축적의 역사를 딛고 비상하는 양자(Quantum) 기술을 비롯해 인공지능(AI)과 차세대 반도체, 우주·항공, 방위산업, 원전·핵융합·수소 등 에너지, 첨단 로봇(피지컬AI) 등 국가전략기술 전반을 다룹니다.
인공지능(AI) 분야에서 사진과 글을 함께 이해하는 시각언어모델(VLM) 기술이 발전하고 있다. 오픈AI의 GPT-4V, 구글의 PaLI 등이 VLM이다.
이런 멀티모달 LLM은 이미지 정보를 수많은 토큰으로 변환해 일일이 읽어낸다. 그만큼 필요한 연산 자원이 많다. 전기를 많이 소모한다는 뜻이다.
KAIST 전산학부 김현우 교수 연구팀은 이미지 형태로 입력받은 테이블을 빠르게 이해해 신속히 응답하면서도 소모 전력은 오히려 줄인 시스템을 개발했다고 27일 밝혔다.
연구팀은 기존 멀티모달LLM과 달리 정보 밀도가 높은 영역에 연산 자원을 집중하고 중복된 정보를 최소화하는 전략을 써서 계산 효율성을 크게 높였다고 설명했다.
연구팀은 인공신경망(ANN)에 점진적으로 질문 내용을 주입해 간결한 특성값을 생성하도록 유도했다. 이 기법을 '탭플래시(TapFlash)'라고 이름 붙였다. 탭플래시를 쓰면 기존 상용 멀티모달LLM보다 연산량이 플롭스(FLOPs) 기준 27% 감소하고 메모리 사용량이 30% 줄었다고 연구팀은 설명했다.
김 교수 연구팀은 AI 동료과학자(Co-scientist) 개념의 멀티모달 LLM도 개발했다. 멀티모달 LLM이 동영상 인식을 넘어 복잡한 분자식과 분자 구조를 이해하는 수준으로 발전하고 있는 추세를 감안했다. 연구팀은 분자구조를 1차원 문자열과 2차원 그래프, 3차원 공간 정보로 통합해 이해하면서 연구자의 지시에 따라 다양하게 응답하는 AI비서 '콜라모(CoLLaMo)'를 선보였다. 신약, 신소재 등을 개발할 때 도움을 줄 수 있는 분자 분석 전용 AI 도구다.
연구팀은 이와함께 서로 다른 AI 모델 사이에서 학습된 지식을 효과적으로 이식할 수 있는 새로운 기술을 개발했다고 밝혔다. 지금 AI모델은 성능이 더 좋은 새로운 모델로 업그레이드 할 때마다 막대한 데이터와 비용을 들여 처음부터 다시 학습을 시킨다. VLM같은 멀티모달 LLM은 이 같은 비용 부담이 더 커진다.
연구팀은 한 AI 모델의 예측결과(Output)를 다른 AI모델로 전달하는 트랜스미터(Transmiter) 기술을 제안했다. 연구팀 관계자는 "계산부담이 큰 역전파 과정 없이 선형정렬을 통해 한번 얻은 학습 지식을 여러 모델에 적용할 수 있고 추론 속도 저하도 거의 발생하지 않는다"고 설명했다.
선형정렬(Linear alignment)은 비슷한 토큰끼리 인접 배치해 연산량을 줄이는 수학적 기법이다. 편미분방정식으로 설계하는 역전파(Backpropagation)는 ANN의 대표적인 학습 기법으로 정답과 오답 간 차이를 파악해 내부의 수많은 파라미터를 조정한다.
이번 연구가 국방기술진흥연구소 주관 핵심기술연구개발사업의 지원을 받았다는 사실이 주목된다. 군에서 운용할 AI 드론 등을 비롯해 전투용 로봇, 무인 전차, 무인 자주포, 무인 잠수함 등 다양한 피지컬AI의 학습 속도와 운용 성능을 높일 수 있는 원천기술이란 뜻이다.
연구팀은 탭플래시 등 3개 연구 성과를 25일 열린 AI 분야 국제 학술대회 AAAI2026에서 발표했다.
이해성 기자 ihs@hankyung.com