카카오 "시스템 다중화로 장애 철저 예방…인프라 투자 3배로"

입력 2022-12-07 14:16
수정 2022-12-07 15:36


카카오가 지난 10월 15일 발생한 '대규모 서비스 먹통' 사태의 재발 방지를 위해 데이터와 모니터링 시스템, 운영관리도구 다중화에 나선다.

또한 IT 엔지니어링 전담 조직을 확대 편성하고 관련 인프라 투자 규모도 3배로 늘린다는 방침이다.

카카오는 7일 개발자 컨퍼런스 ‘이프 카카오 데브 2022에서 지난 10월 15일 판교 SK C&C 데이터센터 화재로 인해 발생한 서비스 장애 원인을 분석하고 재발방지대책을 공개했다.

남궁훈, 고우찬 비상대책위원회 재발방지대책 공동 소위원장, 이확영 원인조사 소위원장(그렙 CEO), 이채영 비상대책위원회 재발방지대책 소위원회 부위원장 등 4명의 연사는 서비스 장애 원인에 대한 분석과 개선 사항을 공유하며 다시는 이런 일이 발생하지 않도록 개선하는 계기로 삼겠다는 의지를 밝혔다.

남궁훈 재발방지대책 공동 소위원장은 키노트에서 카카오의 사회적 소명과 유사 사고 재발 방지를 위한 각오를 피력했다. 카카오 ESG 최우선 과제를 ‘서비스를 안정적으로 제공하는 것’으로 설정하고 인프라 개선을 위해 과거 원인 분석, 현재 재발방지책, 미래 투자 크게 3가지 관점에서 실천과제를 세우겠다고 밝혔다. 고우찬 재발방지 공동 소위원장을 필두로 인프라 조직을 대폭 강화하고 안정적인 서비스 환경을 조성하겠다고 전했다.

이확영 원인조사 소위원장(그렙 CEO)은 카카오 서비스 장애 원인을 제 3자 관점에서 객관적으로 분석했다. 데이터센터와 운영 관리 도구들의 이중화 미흡, 가용 자원 부족 등을 주요 원인으로 꼽았다.

이채영 재발방지대책소위원회 부위원장은 재발방지를 위한 기술적 개선 사항을 발표했다. 데이터센터 이중화, 데이터와 서비스 이중화, 플랫폼과 운영 도구 이중화 등 인프라 하드웨어 설비부터 서비스 애플리케이션에 이르기까지 시스템 전체의 철저한 이중화를 적용하겠다는 계획이다. 아울러 모니터링 시스템 다중화, 데이터 다중 복제 구조 구성, 운영관리도구 삼중화 등 구체적인 개선 사항들을 전했다.

고우찬 재발방지대책 공동 소위원장은 자체 데이터센터 방재 대책과 향후 5년간의 IT 엔지니어링 혁신 방안을 제시했다. 현재 총 4,600억원의 예산을 투입해 시공 중인 안산 데이터센터의 경우 화재 발생을 대비한 3중의 진화 방식을 도입할 예정이다. 또한 IT 엔지니어링 전담 조직과 인재 확보, 각종 자연 재해와 인위적 사건 사고로 사업을 중단하는 상황을 최소화하기 위한 비상대응계획 보완, 외부 멀티 클라우드를 활용한 서비스 연속성 강화와 원격 DR (Disaster Recovery) 데이터센터 구축 계획 등을 설명했다.

카카오는 개선 사항들을 실행하기 위해 향후 5년간은 투자 규모를 지난 5년간의 3배 이상으로 확대할 계획이다.

남궁훈 비상대책위원회 재발방지대책 공동 소위원장은 "늦었지만 지금이라도 반성하고 개선해 나가려고 한다"며 "미래에는 이런 사고가 발생하지 않도록 최선을 다할 것이고, 앞으로도 카카오의 서비스의 안정화가 우리의 최우선 과제이며, 사회적 책임이라는 것을 항상 명심할 것"이라고 말했다.

이프 카카오 둘째날인 내일도 ‘1015 회고’ 특별 세션 5개를 별도로 열고 데이터센터, 인프라 설비, 데이터, 서비스 플랫폼, 어플리케이션 등 다섯 개 영역에 적용하는 다중화 기술에 관해 개별적으로 설명하는 자리를 이어갈 예정이다.