![](https://img.hankyung.com/photo/202204/AA.29722484.1.jpg)
하지만 해결하려는 문제를 먼저 명확히 하지 않는 한 데이터 분석만으로 새로운 통찰을 얻기 어렵다고 저자는 지적한다. ‘미세먼지가 많은 날 공기청정기를 더 많이 사용하는구나’ ‘주로 퇴근 후 저녁 시간에 세탁기를 돌리는구나’ 같은 이미 알고 있는 사실을 재확인하는 데 그치는 경우가 많다는 것이다.
쿠팡은 데이터로 무엇을 하고 싶은지 목표가 명확했다. 로켓배송 서비스 초기 A지역은 외주로, B지역은 직접 배송으로 상품을 보냈고 고객의 재구매율을 측정했다. 국내 스타트업이 만든 ‘열품타(열정을 품은 타이머)’ 앱은 350만 명 넘는 사용자를 모았다. 공부를 많이 할수록 달력의 날짜가 짙게 표시된다. 같은 ‘고2’ 혹은 ‘취업준비생’이 지금 이 시각 몇 명이나 공부하고 있는지를 보여줘 공부 의욕을 자극했다.
![](https://img.hankyung.com/photo/202204/AA.29722485.1.jpg)
시각화는 데이터를 분석하는 데 가장 쉽고 기초적인 방법이다. 시각화만으로도 많은 흐름이 드러난다. 2016년 국내 개봉한 영화의 좌석 점유율을 박스 플롯으로 그리면 배급사가 영화 장르별, 지역별로 상영관을 어떻게 잡아야 할지 보인다. 영화 ‘부산행’은 좌석점유율의 편차가 크지 않았다. 반면 ‘도리를 찾아서’는 경북, 충북, 광주에서 현저하게 좌석점유율이 낮았다. 어린이 만화 영화에 대한 수요가 낮은 지역이라고 볼 수 있다. ‘터널’과 ‘덕혜옹주’는 각각 600만과 500만 이상 관객을 동원했지만 수익률은 평균보다 낮았다. 일부 지역에선 좌석점유율이 50%를 웃돌았지만 다른 곳에서 30%를 밑도는 등 편차가 컸기 때문이다.
한 백화점의 사례도 들려준다. 고객의 구매 이력을 통해 고가의 다이아몬드 반지를 사는 사람이 누구인지 알아봤다. 단순히 돈이 많은 사람이 아니라, 부부간 나이 차이가 많은 사람이었다. 나이 차이가 일곱 살 이상이면 다이아몬드 구매자가 될 확률이 높았다. 책은 데이터 분석에서 기획의 중요성을 강조한다. 무엇을 알고자 하는지 먼저 알아야 한다는 것이다. 데이터 분석 전문가에게만 맡겨놓아선 안 되며 해당 비즈니스 분야 전문가가 기획 단계에 꼭 참여해야 한다고 말한다.
![](https://img.hankyung.com/photo/202204/AA.29722483.1.jpg)
임근호 기자 eigen@hankyung.com