지난 10월 대규모 서비스 장애를 겪은 카카오가 '먹통 사태' 재발 방지용 대책을 발표했다. 시스템 전반을 이중·삼중으로 구축하고 위기 대응 관련 조직을 신설하는 등 인프라, 조직, 서비스 전반에 걸쳐 재해 대응 체계를 재정립한다는 계획이다.
카카오는 7일 연례 개발자 콘퍼런스 ‘이프(if) 카카오’에서 이같은 내용을 발표했다. 서비스 장애 사태 직후 카카오 각자대표직에서 물러난 남궁훈 카카오 비상대책위원회 재발방지대책 공동 소위원장은 이날 키노트 연설자로 나서 “이번 서비스 장애 사태를 돌아보면서 ‘이랬더라면’ 이라는 생각을 많이 했다”며 “하지만 사고는 이미 일어났고, 카카오는 지금이라도 반성하고 개선해나가고자 한다”고 말했다.
“장애 예방·대응 조치 모두 미비”
카카오는 이날 △이중화 미비 △장애 복구를 위한 인력과 자원 부족 △장애 발생시 내부 소통 혼선 △재해 초기 컨트롤타워 부재 등을 대규모 서비스 장애가 발생한 원인으로 꼽았다. 이확영 카카오 비상대책위원회 원인조사 소위원장은 “이중화와 위기 대응 과정이 미흡했다”고 했다. 이 소위원장은 스타트업 그렙의 최고경영자(CEO)로 카카오 소속이 아니지만 카카오 비대위에 들어가 있다. 외부 인사로서 보다 객관적으로 상황을 따져볼 수 있다는 설명이다.
제삼자의 눈으로 본 카카오 서비스 장애 사태는 데이터센터 안팎으로 예방·대응 조치에 문제가 있었다. 카카오 로그인, 카카오톡 사진전송 등 주요 기능은 캐시서버와 오브젝트 스토리지 등이 이중화가 이뤄지지 않은 채 판교 데이터센터에 의존했다.
운영관리 도구와 모니터링 시스템도 이중화가 제대로 이뤄지지 않았다. 한 데이터센터에서 장애가 발생할 경우 서비스에 필요 데이터를 다른 데이터센터에서 받아오도록 자동 전환하는 시스템도 판교 데이터센터에만 설치돼 있었다. 이때문에 사람이 일일이 수동으로 데이터센터 전환 조치를 하면서 서비스 복구가 길어졌다는 설명이다.
대응 단계에서도 미비점이 컸다. 장애 복구를 위한 인력과 자원이 부족했다. 이 소위원장은 “이중화에 필요한 상면이 부족했던 점이 치명적이었다”고 했다. 데이터센터 내에 장비·설비를 설치할 수 있는 공간을 충분히 임대하지 않았다는 얘기다. 장애 대응을 위한 커뮤니케이션 채널에도 혼선이 있었다. 카카오는 내부 협업을 위해 카카오톡과 카카오워크를 주로 쓴다. 이들 서비스에도 장애가 발생하자 중요 사항을 전파하고 소통할 채널이 마땅찮았다.
이번 먹통 사태는 카카오톡, 카카오T, 카카오페이 등 카카오계열 서비스 전반이 영향을 받았다. 하지만 재해 초반 전사를 어우르는 컨트롤타워가 없었다는 점도 지적을 받았다. 카카오를 비롯해 카카오 자회사 등 개별 조직이 각자 대응에 나서면서 유기적인 대처가 어려웠다는 설명이다. 이 소위원장은 “나는 제삼자로서 지적을 할 수 있을 뿐, 다시 같은 일이 발생하지 않도록 조치를 취하는 것은 카카오의 책임”이라며 “전보다 더 높은 목표를 두고 노력해 카카오 서비스들이 신뢰를 회복하길 바란다”고 말했다.
이날 카카오가 설명한 서비스 장애 경과는 기존 공개된 것과 다르지 않다. 판교 데이터센터 화재는 10월15일 오후 3시19분에 발생했다. 불은 당일 오후 11시45분 진화됐고, 센터 전체 전원 공급은 10월19일 새벽 5시께 이뤄졌다.
카카오에 따르면 카카오는 10월20일 오후 11시에 모든 서비스를 복구했다. 일부 서비스가 최장 닷새가량 장애를 겪었다는 얘기다. 가장 먼저 복구된 카카오톡 메시지 송수신 기능도 16일 오전 1시31분에 재가동 됐다.
“서비스간 의존성 줄인다”
이날 카카오는 지난 10월 같은 ‘먹통 사태’를 다시 겪지 않기 위해 인프라와 서비스 구조를 개선하겠다고 공언했다. 이채영 카카오 비상대책위원회 재발방지대책소위원회 부위원장은 “인프라 하드웨어 설비부터 서비스 앱까지 전체 시스템 차원에서 다중화 조치를 할 것”이라며 “현재 데이터센터간 이중화 작업은 완료했고, 빠른 시일 안에 삼중화를 이룰 계획”이라고 했다. 카카오는 메인 백본 센터를 확장하고, 대용량 트래픽이 필요한 서비스는 별도 전용망을 구성해 운영할 계획이다. 이 부위원장은 “앞으로는 모든 클러스터를 데이터센터 단위로 삼중화할 것”이라고 했다. 앱 배포 등 각 운영도구의 목적과 영향도, 중요도 등을 파악하는 절차도 도입한다. 한 순간 여러 서비스에 장애가 발생했을 때 서비스를 복구하는 우선순위를 빠르게 파악하기 위해서다.
이 부위원장은 “메타정보 저장소, 보안키 저장소, 오브젝트 스토리지, 클러스터 모니터링 도구 등이 단일 스토어로 구성됐고 이중화가 안 돼 있었다”며 “스토리지 시스템을 데이터센터 단위로 삼중화하겠다”고 했다. 그는 “이같은 조치에 따른 데이터 전송 지연도(레이턴시) 등 부수적 문제는 차차 해결하겠다”고 덧붙였다.
서로 긴밀히 엮여있는 카카오계열 서비스 구조는 일부 개편한다. 특정 서비스를 이용하려면 무조건 카카오 로그인부터 해야하는 식으로 서비스끼리 엮여 있어 장애 여파가 컸기 때문이다. 이채영 부위원장은 “카카오톡 서버, 카카오 로그인 등에 대해선 서비스간 의존성 문제가 있었다”며 “서비스간 의존성을 줄이고, 중요 서비스 기능을 단독으로 실행할 수 있도록 하는 작업을 벌이고 있다”고 했다.
“재해복구 위원회 신설…투자도 대폭 확대”
내부 조직 개선에도 나선다. 고우찬 비상대책위원회 재발방지대책 공동 소위원장은 “대규모 장애에 대비한 재해복구 위원회를 신설할 것”이라며 “서비스 연속성 확보를 전담하는 조직도 준비하고 있다”고 했다. 외부 전문가들의 자문을 구해 서비스 지속 전략(BCP)도 마련한다. 자연 재해나 재난이 발생해도 서비스 운영이 중단되지 않도록 하겠다는 설명이다. IT 엔지니어링 전문가들을 적극 영입·육성하고 관련 분야에 자금을 대거 투입한다. 안정적인 서비스 제공을 위해 지난 5년간 투자액의 세 배 이상을 앞으로 5년간 쓰겠다는 구상이다.
고 소위원장은 “서비스 안정성을 담보하기 위해 기술적 접근을 늘릴 것”이라며 “카오스 엔지니어링 등 주요 글로벌 기업들이 도입해 효과를 보는 영역에서도 연구개발(R&D)를 벌이고, 결과물 일부는 오픈소스로 공개해 업계에 기여하겠다”고 했다.
고 소위원장은 “재난대응(DR)은 기본적으로 ‘삼중화 플러스 알파’의 구조로 하겠다”고 했다. 데이터센터 삼중화를 이루고, 주요 서비스는 외부 클라우드까지 안전장치로 추가 활용해 서비스 연속성을 강화하겠다는 설명이다.
원격지 DR 데이터센터를 별도로 구축하는 방안도 검토한다. 혹여 데이터센터와 클라우드가 모두 다운되더라도 카카오톡 메시지 전송 기능 등 바로 살려야 하는 서비스를 복구하기 위해서다.
경기 안산에 준공 중인 자체 데이터센터는 화재 등으로 인한 서비스 장애를 피할 수 있도록 설계한다. UPS실과 배터리실을 방화 격벽으로 각각 분리시공해 배터리실에서 화재가 나도 다른 곳에 영향을 주지 않도록 구성한다. UPS와 배터리 구역도 네 부분으로 나눠 운영한다. ‘3중 진화 대책’도 소개했다. 주요 구역에 소화기를 두고, 소화가스 예비 시스템을 구축한다. 화재 발생 구간을 차단할 수 있는 격벽과 수냉 차단기도 도입한다.
고 소위원장은 “2024년엔 또다른 곳에 데이터센터를 구축하는 계획을 수립하고 있다”며 “최악의 상황에서 모듈단위로 완전 셧다운할 수 있도록 설계할 것”이라고 했다.
선한결 기자 always@hankyung.com