파이선 몰라도 AI 활용 가능하다고?

입력 2022-11-01 17:47
수정 2022-11-02 00:42
인공지능(AI) 모델링 과정에서 가장 많은 시간을 투자해야 하는 게 데이터 분석이다. 초보 수준에서 데이터는 대개 수천, 수만 개의 행으로 이뤄진 CSV 파일인 경우가 많다. 그냥 데이터도 아니고 ‘빅’데이터를 이용해 의미 있는 무언가를 찾아내는 게 AI 아니었던가.

엑셀 같은 프로그램으로 파일을 열어서 볼 수도 있지만 데이터 크기가 워낙 크다 보니 한눈에 들어오지 않는다. 데이터를 보기 쉽게 축약하고 그래프로 바꾸기 위해 필요한 도구가 바로 파이선 같은 코딩 프로그램이다. 전문적으로 빅데이터를 다루려면 파이선에서 쓸 수 있는 넘파이(numpy) 같은 연산·분석 도구와 매트플롯립(matflotlib) 등 시각화 도구에 대한 지식이 필수적이다. 이런 도구들을 활용할 수 있어야 데이터가 어떤 식으로 분포돼 있고, 결측치는 얼마나 되는지 등을 파악할 수 있다.

파이선과 관련한 지식은 학습자들에게 ‘장벽’으로 작용할 수 있다. 데이터를 다루기 위해 파이선부터 배우라고 한다면 전문지식이 부족한 학습자 중 몇 명이나 남아있겠는가. 다행히도 AICE 베이식 시험은 파이선 대신 KT가 자체 제작한 그래픽 유저 인터페이스(GUI) 툴인 에이아이두 이지(AIDU ez)를 사용한다. 데이터 분석과 시각화, 가공은 물론 AI 모델 학습, 활용까지 할 수 있다. KT의 클라우드를 통한 가상 환경에서 실행되기 때문에 접속하는 PC의 사양이 낮아도 상관없다.

에이아이두 이지를 실행하고 분석하려는 CSV 파일을 불러오면 화면 좌측 메뉴의 데이터 분석 탭에서 기초적인 정보 분석과 시각화 분석을 할 수 있다. 전체 변수가 몇 개인지, 데이터가 누락된 셀은 몇 개나 있는지 전체적인 통계부터, 최빈값·평균·중간값은 무엇인지도 한 번에 볼 수 있다.

시각화 분석에서는 산점도, 히트맵, 박스 차트, 분포 차트를 이용해 그래프를 만들어 볼 수 있다. 다양한 도구를 쓰면 각 변수 자체를 분석하는 것은 물론 여러 변수 간 상관관계도 찾을 수 있다. 심하게 튀는 데이터를 찾아 없애거나 비어 있는 데이터를 최빈값, 평균값, 중앙값 등으로 채울 수도 있다. 문자로 쓰인 데이터를 컴퓨터가 이해할 수 있게 0, 1로 바꾸거나 단위가 다른 숫자를 0과 1 사이의 값으로 통일해주는 ‘데이터 스케일링’ 기능도 제공한다.

우리가 예측하고 싶은 변수(레이블)에 영향을 많이 주는 요인(피처)을 찾았다면 이것들을 중심으로 AI 모델을 만들어 학습시킬 수 있다. 물론 직접 파이선을 쓰는 것보다 기능이 제한적이지만 ‘코알못’도 쉽게 데이터에 접근할 수 있다는 점은 긍정적으로 평가할 만하다. (④에서 계속)

이승우 기자 leeswoo@hankyung.com