"경주 얼굴무늬 수막새 그려줘" 챗GPT에 요청했더니…

와우넷 오늘장전략

트럼프, 이란 공격 '열흘' 유예…'4월 종전' 구상 드러났다 - 와우넷 오늘장전략

굿모닝 주식창

반도체 쌍두마차↑코스피 신고가 돌파! - [굿모닝 주식창]

앱으로 보는 시장

한화에어로스페이스, 방산주 재도약의 신호탄 되나? - [앱으로 보는 시장]

입력 2026-03-29 20:05

수정 2026-03-30 01:02

29일 챗GPT와 제미나이에 국가 보물 ‘경주 얼굴무늬 수막새’를 그려달라고 요청하자 기와가 아니라 독립된 석조 조형물이 화면에 나타났다. 흙을 구워 생긴 거친 질감은 사라지고, 유물엔 없는 문양과 장식 테두리가 생겼다. 아시아의 조각 양식을 뒤섞어 내놓은 이른바 ‘시각적 할루시네이션(환각)’이 발생한 것이다.

인공지능(AI)이 한국 문화를 잘못 학습해 왜곡하는 문제는 AI가 본격화한 이후 어제오늘 일이 아니다. 정부는 이런 현상을 막기 위해 한국 AI 학습 대응에 나섰다. 선봉엔 문화체육관광부 산하 국립국어원이 섰다. 국립국어원이 쌓아놓은 대규모 한글 데이터에 영상과 음성 등을 붙인 데이터를 구축하겠다는 구상이다. 이를 한국 AI 모델에 학습시키고 이후 산업 현장의 휴머노이드 로봇 등 피지컬AI에도 적용한다는 방침이다.

◇한글 문장을 장면으로 데이터화

국립국어원은 지난달 ‘한국언어문화 멀티모달 말뭉치 구축 사업’을 시작했다. 영상, 음성, 이미지, 텍스트를 유기적으로 연계한 데이터를 구축하는 프로젝트다. 지시문을 기반으로 총 16만 개 규모의 멀티모달 데이터를 확보하는 게 목표다. 올해 예산은 약 15억5000만원으로 적지만 내년엔 더 확보해 AI 학습 사업을 확대한다는 계획이다.

말뭉치는 실제 사용하는 언어 사례를 모아 정리한 대규모 데이터다. 그간 텍스트를 중심으로 데이터를 모았다면 이제 특정 단어가 쓰일 때의 표정, 주변 사물의 위치, 목소리 톤까지 기록해 AI에 ‘현실 세계’를 통째로 가르친다. 정부가 영상과 음성이 결합된 ‘멀티모달 말뭉치’ 구축에 나선 것은 처음이다.

사업 배경엔 기존 데이터 구조의 한계가 있다. 텍스트만으로는 한국어 특유의 ‘상황 맥락’을 온전히 전달하기 어렵다. 예컨대 사람은 ‘파를 송송 썰어줘’라고 말하고 적지만 AI는 ‘송송’의 구체적 이미지를 알기 어렵다. 국립국어원 관계자는 “한국어는 같은 표현이라도 상황과 동작에 따라 의미가 달라지는 특성이 있다”고 설명했다. 국립국어원은 표준국어대사전의 정의를 기반으로 단어의 피상적 의미를 넘어 동작 속도와 힘의 강도, 손의 궤적 등 물리적 요소까지 세분화해 데이터화한다는 목표다.

◇피지컬AI 학습이 목표

정부는 한글 멀티모달 데이터를 피지컬AI 등 신산업에 적용하는 방안도 모색하고 있다. 16만 건 규모의 데이터는 국내 기업이 활용할 수 있는 표준 학습 데이터로 사용될 전망이다. 정부는 올해 구축을 마친 뒤 내년부터 데이터를 민간에 전면 개방해 국내 AI 및 로봇 기업의 개발 속도를 끌어올린다는 방침이다. 국립국어원이 “이번 사업은 ‘소버린(주권) AI’를 구축하기 위한 첫걸음”이라고 한 이유다.

글로벌 빅테크는 멀티모달 데이터 확보에 사활을 걸고 있다. 이들이 방대한 범용 데이터를 쌓는 사이 정부는 한국적 맥락에 특화한 ‘고농축 동작 데이터’로 승부수를 던졌다는 분석이 나온다. 글로벌 모델이 학습하기 어려운 한국 특유의 문화적 디테일을 데이터화해 AI 로봇산업의 틈새 경쟁력을 확보하겠다는 전략이다.

16만 건 규모로는 글로벌 기업과의 데이터 경쟁에 한계가 있다는 지적이 있지만, 고품질 표준 데이터를 먼저 확보하고 이를 기반으로 확장하는 전략이 효과적이라는 평가도 동시에 나온다. 장영재 KAIST 산업시스템공학과 교수는 “피지컬AI 시대에는 단순히 동작을 따라 하는 수준을 넘어 상황에 맞는 최적의 판단을 내리는 것이 중요하다”며 “데이터의 절대적인 양보다 언어와 동작 사이 미세한 간극을 메우는 고품질 데이터가 산업의 성패를 가를 것”이라고 말했다.

▶말뭉치와 멀티모달

사람의 말과 글을 컴퓨터가 읽을 수 있는 형태로 수집·가공한 데이터베이스가 말뭉치라면, 멀티모달 데이터는 여기에 영상, 음성, 이미지 등 다양한 정보를 결합한 것이다. 멀티모달은 인공지능(AI)이 언어뿐 아니라 표정, 동작, 상황 맥락까지 함께 이해하도록 한다. 최근 생성형 AI가 텍스트를 넘어 이미지와 행동까지 다루며 핵심 학습 데이터로 떠오르고 있다

안정훈/유지희 기자 ajh6321@hankyung.com

싫어요

후속기사 원해요

한경지면 구독신청

실시간 관련뉴스