코스피

5,354.01

  • 65.93
  • 1.25%
코스닥

1,142.71

  • 1.62
  • 0.14%
1/3

[인사이트 칼럼] AI 시대, 인간의 뇌처럼 작동하는 반도체

페이스북 노출 0

핀(구독)!


뉴스 듣기-

지금 보시는 뉴스를 읽어드립니다.

이동 통신망을 이용하여 음성을 재생하면 별도의 데이터 통화료가 부과될 수 있습니다.

[인사이트 칼럼] AI 시대, 인간의 뇌처럼 작동하는 반도체

주요 기사

    글자 크기 설정

    번역-

    G언어 선택

    • 한국어
    • 영어
    • 일본어
    • 중국어(간체)
    • 중국어(번체)
    • 베트남어

    2016년 구글의 알파고가 바둑을 제패했을 때, '놀라웠지만 그냥 그런 것이 있구나' 하는 정도였던 인공지능(AI)이 이제는 우리의 일상에 늘 존재하게 됐다. 특히 챗GPT로 대변되는 생성 AI의 놀라운 발전은 일상 생활의 편리를 증대시키는 차원을 넘어섰다. 튜링 테스트(기계와 인간을 구분짓는 테스트)를 통과할 정도의 일반인공지능(AGI)이 머지 않아 구현될 것임을 강력하게 시사하고 있다. 최근에는 AGI를 넘어서 인간의 지적 능력을 훨씬 초과하는 초인공지능(ASI)의 가능성에 대한 논의가 진지하게 이루어지고 있다.

    이는 '과연 인간의 지능이 최상의 지능인가', '새로운 형태의 지능이 인간 지능을 추월할 가능성은 없는가' 라는 근본적인 질문에 대한 답을 추구하는 과정으로 볼 수도 있다. 한편 초지능(ASI)이 구현된다면 일자리 문제를 포함한 경제적·기능적인 문제 뿐만 아니라 지적 존재로서의 인간의 설자리는 어디인가에 대한 철학적인 논의가 촉발되고 있기도 하다.
    제프리 힌턴 '알렉스넷', 이미지 인식 분야 혁명
    오늘날의 AI를 구성하는 신경망에 대한 기본 이론은 이미 1950년대에 제시되었으나 실제로 의미 있는 결과를 얻지는 못하여 큰 주목을 받지는 못하였다. 그러나 1980년대 들어서 존 홉필드(John Hopfield) 교수가 'Hopfield network'를, 제프리 힌턴(Geoffrey Hinton) 교수가 이를 변형한 'Boltzmann machine'을 제안하면서 신경망을 이용한 연산이 다시 관심을 끌게 되었다. 이들 Hopfield network와 Boltzmann machine은 각각 물리학에서 잘 알려진 스핀(spin) 상태에 따른 에너지 이론과 통계역학에 따른 에너지 분포를 응용한 신경망 이론이었다. 당시의 제한된 연산 능력과 단순한 구조로 인하여 이들 역시 의미 있는 규모의 문제를 풀지는 못하는 한계가 있었다.


    이를 해결하기 위해서는 입력층과 출력층 사이에 은닉층을 가지는 심층신경망을 구성해야 한다. 그러나 단순한 신경망 구조의 가중치 계산도 버거운 상황에서 심층신경망의 가중치 계산을 하는 것은 당시의 연산 능력으로는 불가능하였으며, 심층신경망의 가중치 계산을 효율적으로 수행하기 위한 방법론도 없었다.

    그런데 2010년대에 힌턴 교수 등이 'AlexNet'이라는 이름을 가진 심층신경망 구조에 역전파(back-propagation) 방식에 기반한 훈련 기법을 적용하여 이미지 인식 분야에 혁명을 이루었다. 한편 꾸준히 발전한 반도체 칩의 성능으로 인하여 기존에 불가능하였던 규모의 연산을 비교적 빠른 속도로 수행할 수 있게 됐다.


    인류는 지난 70~80년간 하나의 디지털 비트(digital bit)의 역전 (flip)에 필요한 계산 비용을 수조 배 감소시켰다. 홉필드 교수와 힌턴 교수는 이러한 계산 능력의 발전에 힘입어 그들이 제시한 신경망 구조가 실제로 의미 있는 것이었음을 증명할 수 있었고, 그 결과 2024년 노벨 물리학상을 수상하였다.

    물론 단순히 반도체의 성능이 발전하였기에 AI가 발전한 것은 아니다. 위에 언급한 이미지 인식 알고리즘은 입력이미지의 특징을 추출·압축하고 FCN(fully connected network)'에 입력하는 'CNN'(convolutional neural network)으로 발전했다. 오늘날에는 인간의 인식 능력을 상회하는 결과를 얻고 있다. 최근에는 CNN 뿐 아니라 'Reservoir Computing'과 같은 기법을 이용해 이미지 및 동적 정보 처리를 훨씬 더 효율적으로 수행하는 방법에 대한 연구도 활발하게 이뤄지고 있다.
    구글의 트랜스포머에서 오픈AI의 LLM으로
    한편 2017년 구글에서 발표한 'Attention is all you need'란 논문이 오늘날의 AI 혁명을 촉발한 계기가 되었다. 이 논문의 원래 목적은 언어 간 번역을 원활하게 하는 알고리즘과 신경망 구조를 제시하는 것이었다. 언어 번역에서는 주어진 원 문장에 포함된 단어 간의 문맥이 신경망에 반영될 수 있게 하는 것이 중요하다. 이 논문은 이런 관계를 나타낼 수 있는 방법으로 어텐션(attention) 알고리즘과 이로 이루어진 어텐션 블록(attention block)을 제시했고, 이 어텐션 블록이 FCN으로 반복 연결되는 '트랜스포머(transformer)' 구조를 제시했다.



    이후 Open AI의 엔지니어들은 이 트랜스포머를 웹 상에 존재하는 수많은 텍스트(text)로 훈련시키면 일반적인 질문에 답을 할 수 있는 거대언어모델(large language model, LLM)로 발전시킬 수 있음을 깨달았다. 이 결과가 오늘날의 Chat GPT다. 오늘날 많은 빅테크 기업들이 제공하는 LLM들은 공통적으로 프롬프트(prompt) 입력을 주면 이 프롬프트 다음에 올 토큰(token, 말 단위)을 예측한다. 간단해 보이는 원리이지만 챗GPT3의 경우 어텐션 블록과 FCN이 96회 반복되는 구조를 가지고 있다. 여기엔 총 약 1750억개의 가중치가 존재한다. 이 가중치들을 적절한 값으로 조절하는 것이 LLM의 학습 과정이다. 오늘날의 막강한 그래픽처리장치(GPU)와 고대역폭메모리(HBM)으로 구성된 AI 하드웨어를 이용하더라도 훈련에 수 개월이 소요된다. 더욱이 가중치가 많은 신경망일수록 성능이 우수한 경향을 보여 최근에 발표되는 LLM들의 가중치는 수조 개에 달하고 있다.
    트랜스포머 모델 구현에 D램 수요 폭발
    이와 같은 신경망 연산기는 전통적인 중앙처리장치(CPU)와 메모리반도체(D램) 구조에 기반한 연산기와 큰 차이가 있다. 전통적인 구조에서는 소위 메모리 월(memory wall) 또는 폰 노이만 보틀넥(Von Neumann bottleneck)이 있어 CPU가 사용할 수 있는 데이터의 제한이 심각하다. 따라서 회로설계 엔지니어들은 항상 D램 엑세스를 최소화할 수 있는 방향으로 CPU를 설계해 왔고, 이에 적당한 방법이 부울(Boolean) 논리연산에 근거한 연산기의 개발이었다.

    그런데 LLM과 같이 기계학습(machine learning) 방식에 근거한 신경망은 데이터 자체에 내재하는 규칙을 경험적으로 찾아가는 방식이다 보니 기존 방식과는 비교도 되지 않는 엄청난 규모의 D램이 필요하게 되었다. 이를 가능하게 한 것이 프로세서(processor)와의 연결 채널이 수 개 정도인 기존 D램과 달리, 2000개 이상의 연결 채널을 가지는 HBM이다. 신경망 연산은 vector-matrix multiplication(VMM)을 병렬적으로 반복하는데, 최신 GPU는 수만개의 VMM 유닛이 병렬적으로 존재한다. 이들이 수 개의 HBM과 효율적으로 데이터를 주고받으면서 트랜스포머와 같은 구조의 모델을 구현한다.


    그런데 일반적인 PC 용 CPU 한 대가 대략 100W 대의 전력을 소모하는 데 비하여 최신 GPU는 킬로와트(kW) 대의 전력을 소비한다. 특히 최신 AI 서버는 연산을 위한 전력 소모뿐 아니라 이에 따라 발생하는 열을 제거하기 위한 냉각에 소모되는 전력도 연산에 필요한 전력에 버금가는 상황이 발생하고 있다. 이와 같은 서버가 수만 대 존재하는 데이터센터가 사용하는 전력은 지속 가능성이 의심되는 수준으로 증가하고 있고, 아직 AI용 대형 데이터센터가 많지 않은 우리나라의 경우에도 총 전력의 약 2% 정도를 이미 데이터센터가 소모하고 있다. 최근 추론시장의 확장과 더불어 특정 추론에 적합한 'NPU+D램' 시스템의 개발도 활발하다. 추론의 경우 반드시 'GPU+HBM'과 같은 비용이 많이 드는 하드웨어를 사용할 필요가 없다는 점이 밝혀지면서 이와 같은 추세가 가속화되는 양상이다. 특히 최근 피지컬 AI에 대한 강조가 늘어나면서 저전력으로 구동할 수 있는 AI에 대한 요구가 급속히 증대되고 있다.
    전력 소모의 대부분은 데이터 교환
    AI 시스템이 많은 전력을 소모하는 문제의 근원은 인간의 인지를 구현하기 위해 기계학습 방식을 적용하고 있기 때문이라고 할 수 있다. 인간은 역전파나 트랜스포머를 쓰지 않고도 번역 등 적당한 수준의 인지적 행동을 할 수 있는데, AI는 그렇지 못하다. 한편 현재 AI 하드웨어의 전력 소모의 큰 부분은 물리적으로 분리되어 있는 프로세서와 메모리 사이의 데이터 교환이 차지하고 있다. 전통적으로 컴퓨터는 프로세서와 메모리가 분리된 폰 노이먼 아키텍처를 가지고 있는데, 최신의 GPU 시스템에도 같은 문제가 존재한다. 특히 GPU와 대부분의 NPU는 CPU에 비해 메모리가 훨씬 많이 필요한 연산을 하기 위해 개발된 제품으로서 전력소모가 과도할 수 밖에 없다.

    Process-in-memory(PIM)은 이러한 문제를 해결하기 위하여 메모리 내부에 연산 기능을 일부 통합한 구조다. 그러나 상이한 프로세서와 메모리 공정 등의 문제에 의하여 PIM의 최선의 성능을 이끌어 내려면 상당한 시간이 소요될 것으로 예상된다. 그럼에도 불구하고 PIM은 'computation-centric computing'에서 'data-centric computing'으로의 패러다임 전환을 보여주는 상징적인 기술이 될 것이다.


    그러나 PIM은 인공신경망을 위한 VMM 연산을 기존에 비해 효율적으로 수행할 뿐으로, 인간의 뇌 동작과는 여전히 거리가 먼 연산 방식이다. 참다운 의미의 인지적 연산기는 기계학습 방식을 탈피한 알고리즘과 하드웨어를 를 장착한 것으로 볼 수 있다. 이를 통상적으로 뉴로모픽 프로세서(neuromorphic processor)라고 부른다. 그러나 뉴로모픽 프로세서의 가장 큰 문제는 아직 우리가 인간 뇌의 구조와 동작을 잘 이해하지 못하고 있기 때문에 어떤 방식으로 뉴로모픽 프로세서를 만들어야 할지 명확한 방향이 존재하지 않는다는 점이다.

    현재 일부 존재하는 뉴로모픽 프로세서는 여전히 CMOS 기반의 폰 노이만 컴퓨팅을 이용해 'spiking neural network'을 조금 더 효율적으로 구현하는 정도에 머물러 있다. 더욱 발전된 뉴로모픽 프로세서를 구현하려면 기존의 CMOS와 기계학습 방식을 탈피한 새로운 하드웨어와 이를 효과적으로 구동하기 위한 알고리즘 연구가 병행되어야 한다. 이를 위해서는 주어진 데이터를 기계학습 방식에 비해 더 효과적으로 처리함에서 더 나아가, 데이터의 입력 자체를 더 지능적이게 하는 방법이 필요하다. 가령 인간이 눈은 대상의 형태와 이동을 감지하고 이를 뇌에 전달할 때 필요한 정보만을 추출하여 보내는 기능을 가지고 있어, 운전 등의 작업에 매우 유용하다. 이에 비하여 카메라에 기반한 비전 시스템은 모든 픽셀 정보를 그대로 프로세서로 보내기 때문에 효율적인 운용이 어렵다.
    기계학습 대안 '멤리스트' 연구 활발
    2010년대 이후 이를 실현하기 위하여 멤리스터(memristor)를 이용한 연구가 이루어지고 있다. 멤리스터는 전기 신호의 인가 과정 (역사)에 의해 소자의 전기적인 상태가 결정되는 특별한 성능을 가져 뉴로모픽 시스템 구현에 적합하다. 그러나 멤리스터를 이용한 뉴로모픽 시스템은 아직 기계학습 방식에 비하여 실용적인 결과에 도달하지는 못하고 있다. 이는 근본적으로 다양한 병렬 연결과 계층적 구조, 그리고 복잡하게 얽힌 종합적인 인간 뇌의 정보 전달 체계를 정확히 이해하지 못하고 있는 문제에 기인한다.



    오랜 기간 양산에 적합한 공정을 개발시켜온 실리콘(Si) 기반의 CMOS 공정과 달리 멤리스터는 아직 양산에 적합한 물질과 공정, 그리고 최적의 회로 구조 등이 명확하지 않은 상태에 머물러 있다. 따라서 이 분야는 심리학, 뇌과학, 인지과학, 전자공학, 재료공학 등 다학제적인 연구를 통하여 접근하여야 하는 어려운 과제를 안고 있다.

    사실 잘 작동하는 뉴로모픽 시스템이 구현된다고 해도, 그 적용 영역과 한계가 어느 정도일지는 아직 불분명하다. 전술한 바와 같이 인간의 지능이 우주에 존재할 수 있는 최선의 지능인지 불분명한 상황에서 인간의 인지 능력을 모방하려는 시도가 과연 최선의 컴퓨팅 방식인지에 대해서도 다시 판단해볼 필요가 있다고 생각된다.

    황철성 교수는
    메모리 반도체 소재 및 차세대 반도체 소자 분야의 세계적 권위자. 차세대 뉴로모픽(뇌신경세포모사형) 반도체 소자 등의 분야에서 세계적 연구 성과를 낸 석학이다. 서울대학교 무기재료공학과에서 학사와 석사, 박사를 마쳤다. 미국 국립표준기술연구소(NIST) 재료과학공학연구실 세라믹스부문 박사후연구원, 삼성전자 반도체연구소를 거쳐 1998년부터 서울대 공과대학 재료공학부에서 재직 중이다. 황 교수 연구실에서 배출한 박사만 100명을 넘을 정도로 후학 양성에도 힘을 쏟고 있다. SCI 논문 750편 발표, 국내외 특허 227건(142건 출원, 85건 등록)과 기술 이전 16건, 지속적인 산·학 협력 등을 통해 반도체 산업 발전에도 공헌했다.




    실시간 관련뉴스