코스피

4,100.05

  • 71.54
  • 1.78%
코스닥

924.74

  • 5.09
  • 0.55%
1/7

여전히 사람에 의존하는 피지컬 AI용 데이터 수집[테크트렌드]

페이스북 노출 0

핀(구독)!


뉴스 듣기-

지금 보시는 뉴스를 읽어드립니다.

이동 통신망을 이용하여 음성을 재생하면 별도의 데이터 통화료가 부과될 수 있습니다.

여전히 사람에 의존하는 피지컬 AI용 데이터 수집[테크트렌드]

주요 기사

    글자 크기 설정

    번역-

    G언어 선택

    • 한국어
    • 영어
    • 일본어
    • 중국어(간체)
    • 중국어(번체)
    • 베트남어


    피지컬 AI용 데이터 수집이 중요해지면서 데이터 생성 방식도 다양해지고 있다. 그동안 디지털 시뮬레이션을 이용한 합성 데이터 생성 방식이 많이 사용되어 왔는데 보다 중요한 현장 데이터 생성, 수집 과정에서는 사람에 의존하는 경우가 더 많아지고 있다.
    데이터의 중요성이 부각되면서 생성·수집 방식도 다양화
    AI가 언어, 이미지의 디지털 세계에서 현실의 물리적 세계로 확장되면서 로봇용 피지컬 AI 학습에 필요한 데이터의 중요성이 급부상했다. 로봇용 피지컬 AI의 학습에는 다양한 환경에서 수집된 데이터가 필요하다. 물리적 세계에서 로봇이 물체를 집고 옮기고 조작하는 모든 동작을 재연할 수 있는 데이터를 모으려면 막대한 시간과 비용이 필요하다.


    그래서 어떻게 데이터를 만들고 수집하는 것이 효과적인지에 대한 관심도 커지고 있다. 대규모 학습용 데이터 세트를 공개한 구글 딥마인드(Google Deepmind)와 중국 애지봇(Agibot), 로봇용 피지컬 AI의 대표 주자인 RFM(Robot Foundation Model)을 개발해 온 코배리언트(Covariant) 등의 사례들은 최근 많이 사용되는 데이터 생성 방식을 잘 보여준다.
    중요한 현장 데이터 생성은 대부분 사람에 의존
    기업들이 주로 사용되는 피지컬 AI용 데이터 수집 방식은 원격조종(Teleoperation), 모션 캡처(Motion Capture), 비디오 기반 학습의 세 가지로 나눌 수 있다.

    원격조종은 사람이 직접 VR 헤드셋과 컨트롤러, 조이스틱 등의 조종 장치를 이용해서 로봇의 이동, 로봇 팔의 동작, 엔드 이펙터의 작동 등 로봇 각 부분의 움직임을 실시간으로 제어하고 이 과정에서 발생하는 로봇의 센서 데이터와 동작 정보를 기록하는 방식이다. 예를 들어 손 동작은 로봇 엔드 이펙터의 이동과 회전 관련 데이터로 기록되고 역운동학(inverse kinematics)을 통해 관절 각도 데이터로 변환된다.


    원격조종 방식의 장점은 데이터의 정확성과 재현성이다. 사람이 실시간으로 로봇을 제어하므로 로봇의 센서 데이터, 관절 각도, 엔드 이펙터 위치 등이 모두 정확하게 기록된다. 또 동일한 로봇 플랫폼을 이용하는 경우에는 일관성이 보장된다. 애지봇이 100대의 휴머노이드로 데이터를 수집하듯이 같은 유형의 로봇 다수를 사용하면 하드웨어와 관련된 변수를 제거하고 순수하게 작업 데이터를 수집할 수 있다.

    그런데 원격조종은 다른 방식에 비해 비용과 시간이 더 든다는 단점도 지닌다. 데이터를 수집하려면 숙련된 로봇 조종사가 필요하다. 복잡한 작업을 하는 과정에서는 사람이 로봇 제어를 여러 번 시도하게 되므로 시간이 많이 걸릴 수 있다. 또 조종 과정에서 발생하는 실수까지 모두 데이터로 기록되므로 학습용 데이터의 품질이 나빠질 수도 있다.


    모션 캡처 방식은 사람이 직접 작업을 시연하는 과정에서 일어나는 관절 등 신체의 움직임을 실시간으로 기록해서 로봇의 자세 데이터로 변환하는 방식이다. 사람의 자연스러운 동작을 기록하므로 복잡한 조작이나 양손 협업 작업 등 복잡다단한 동작을 로봇에 학습시키기에 적합한 데이터를 만들 수 있다.

    특히 모션 캡처는 각 손가락의 움직임까지 기록할 수 있어 세밀한 손동작이 필요한 작업을 학습시키기에도 유리하다. 애지봇의 전신 모션 캡처 시스템의 경우 머리, 손가락, 몸통 자세까지 기록해서 로봇 동작으로 변환한다. 양손으로 옷을 접거나 물건을 정리하는 등 긴 시간이 걸리는 동작도 데이터화할 수 있다. 또 사람 손처럼 손가락 각각의 독립적 움직임까지 기록할 수 있는 시스템을 갖춰 VR 컨트롤러로는 구현하기 어려운 수준의 정밀 조작도 재연할 수 있다.


    모션 캡처의 가장 큰 장점은 자연스러움과 복잡한 동작 구현이다. 사람이 직접 작업을 수행하므로 인간의 직관적인 동작 패턴이 그대로 데이터에 반영된다. 두 손을 이용한 정교한 동작, 물체 변형 조작, 도구 사용 등 복잡한 작업에서 특히 유리하다. 애지봇이 구축한 데이터 세트의 80%가 60초 이상의 장시간(Long-horizon) 동작인 것도 모션 캡처의 강점을 활용한 결과다. 커피 만들기처럼 여러 동작을 순차적으로 수행하는 작업은 VR 컨트롤러보다 전신 모션 캡처를 이용해야 훨씬 자연스럽게 구현된다.

    하지만 모션 캡처에도 몇 가지 단점이 있다. 가장 큰 문제는 사람의 신체 구조와 로봇의 기계적 구조가 다른 점에서 비롯한다. 사람의 관절 움직임을 로봇 관절로 매핑(mapping)하는 과정에서 불일치가 발생할 수 있다. 특히 로봇이 물리적으로 구현할 수 없는 자세를 사람이 취할 경우에는 문제가 된다. 또 고정밀 모션 캡처 장비는 고가이고 실시간 처리를 위한 컴퓨팅 자원도 많이 든다. 마커 부착이나 캘리브레이션 등 사전 준비가 복잡한 면도 있다. 더해서 환경 제약도 모션 캡처 활용의 단점으로 작용한다. 모션 캡처 시스템은 통제된 실내 환경에서만 작동하므로 실외나 예측 불가능한 환경에서는 사용하기 어렵다.


    보다 단순한 방식은 비디오 기반 생성이다. 비디오 기반 생성은 사람이 작업하는 모습을 촬영한 영상으로부터 동작 관련 데이터를 추출하는 방식이다. 대규모 인터넷 비디오를 활용할 수 있어 단시간에 자세 관련 데이터를 대폭 수집하기에 유리하다. 그래서 구글과 애지봇 역시 비디오 기반 생성 방식도 적극 병행하고 있다.

    비디오 기반 생성의 가장 큰 장점은 확장성이다. 인터넷에 이미 존재하는 방대한 비디오 데이터를 활용할 수 있어 학습용 데이터 수집 과정을 훨씬 단순화할 수 있다. 비디오 기반 생성 방식은 한계도 명확하다. 우선 역동역학 모델(inverse dynamics model) 등 중간 단계의 작업이 추가로 필요하다. 비디오는 자세와 관련된 시각 정보만 제공하고 로봇이 실제로 어떤 제어 신호를 출력해야 하는지는 알려주지 않기 때문이다.


    둘째, 사람의 동작과 로봇의 동작 간에 존재하는 본질적 차이를 메워야 하는 난제도 안고 있다. 사람은 손가락, 손목, 팔의 유연한 움직임으로 작업하지만 로봇은 관절 각도와 토크로 제어된다. 시각 정보만으로 사람의 동작과 로봇의 동작 간의 간극을 메우는 것이 예상보다 어렵다고 한다. 셋째, 힘이나 토크, 촉각 등의 정보를 얻을 수 없다. 시각 정보만으로는 물체의 무게나 표면 질감을 판단하기에는 한계가 크기 때문이다.
    데이터의 품질 관리도 사람이 직접 수행
    애지봇은 사람이 직접 데이터를 검토해서 불량 데이터는 삭제하고 양질의 데이터만 축적하는 ‘휴먼 인 더 루프(Human-in-the-loop)’ 방식의 독특한 데이터 관리 시스템을 운용하고 있다. 애지봇이 만들고 공개하는 데이터 세트인 애지봇월드는 원격조종, 모션 캡처, 비디오 기반 생성 등 다양한 방식으로 1차 수집한 데이터를 데이터 검토팀이 분석해서 불량 데이터를 제거하고 우량 데이터만 선별한다. 이 과정에서 애지봇은 사전에 만든 로봇 학습용 데이터가 갖춰야 할 기준(standards)을 바탕으로 데이터의 불량 여부를 판정한다. 수집한 데이터가 선별 기준에 부합하는 경우에는 동작 내용 등에 대한 설명을 문자로 추가해서 최종적인 데이터 세트를 완성한다. 데이터 검토 과정의 객관성을 확보하기 위해 데이터 검토팀은 데이터 생성 조직에 속하지 않은 별도의 인력으로 구성된다고 한다.

    또 애지봇은 향후 AI의 오류 인식 및 복구 능력 향상에 활용하기 위해 물건을 떨어뜨린 후 다시 집는 등의 실수를 데이터화한 실패 복구(Failure Recovery) 데이터도 만들고 있다. 이렇게 보면 생성, 수집, 품질 관리 등 피지컬 AI용 데이터 세트 구축 전반에 걸쳐 사람의 역할이 여전히 많이 남아 있는 편이다.

    진석용 LG경영연구원 연구위원


    - 염색되는 샴푸, 대나무수 화장품 뜬다

    실시간 관련뉴스