지난 25일 발생한 KT의 전국 통신 먹통 사태는 KT의 안일함과 점검 태만에서 비롯된 인재였던 것으로 풀이된다.
KT는 사고에 대비해 당연히 미리 해봤어야 하는 시험 운행을 아예 하지 않았다. 중요 장비를 교체하는 현장에 KT 직원은 없이 협력업체 직원만 있었다.
당초 예정한 심야∼새벽 시간이 아니라 트래픽이 몰리는 월요일 낮에 교체를 진행해 피해를 더 키웠다. 알고 보니 그 이유라는 것이 "(직원들이) 야간작업을 좋아하는 사람은 없어서"라는 어이없는 내용이었다.
과학기술정보통신부가 29일 발표한 KT 네트워크 장애 원인 분석 결과에 따르면 사고는 지난 25일 낮 KT 부산국사에서 기업망 라우터(네트워크간 통신을 중개하는 장치)를 교체하던 중 일어났다.
당초 KT 네트워크관제센터는 협력업체가 교체 작업을 26일 오전 1∼6시에 진행하도록 승인했지만, 계획이 바뀌어 25일 낮에 교체가 진행됐다.
홍진배 정보보호네트워크정책관은 "과기부가 수사를 한 것은 아니지만 협력업체 직원들과 KT 관리자에게 직접 확인했다"며 "왜 주간작업을 했는지는 `야간작업을 좋아하는 사람은 없기 때문에 주간작업을 선호한 것`으로 파악됐다"고 말했다.
`KT가 야간작업을 하기 싫어 협력업체에 주간작업을 유도한 것이 아니냐`는 질문에 홍 정책관은 "주간작업이 이뤄진 것은 KT 관리자와 협력사 직원 양쪽 합의하에 이뤄졌고 한 쪽의 단독 결정이 아니다"라고 설명했다.
어이없는 무모함에 무모함이 겹친 결과, 교체 작업 중간인 25일 오전 11시 16분께부터 네트워크 장애가 시작돼 낮 12시 45분까지 89분간 서비스가 먹통이 됐다.
공공기관은 물론이고 기업, 자영업자 등의 업무가 가장 바쁜 월요일 낮부터 점심시간까지 국가 기간통신망이 얼어붙어버린 것이다.
게다가 KT는 이 장비 교체 작업을 KT측 작업 관리자 없이 협력업체 직원들끼리만 수행하도록 했다.
최성준 과기정통부 네트워크정책과장은 "KT 관리자에게 확인한 결과 다른 업무가 있어서 자리를 비웠다고 했다"고 전했다.
사고의 직접 원인은 역시 사람의 실수, 이른바 `휴먼 에러`였다.
협력업체 직원이 교체 장비의 `라우팅`(네트워크 경로 설정)을 하다가 정보를 입력하는 과정에서 들어가야 할 명령어 중 `엑시트`(exit)라는 단 한 단어를 빠뜨린 것이다.
이 때문에 통상 BGP(보더 게이트웨이 프로토콜, 외부 라우터와 경로 정보를 주고받는 프로토콜)에 들어가야 할 경로 정보가, 그 수십분의 1 수준의 경로 정보를 교환해 주는 내부용 IS-IS 프로토콜로 한 번에 몰리면서 오류가 발생했다.
전체 스크립트(명령글)에 오류가 있는지를 확인하는 사전검증 단계가 두 차례나 있었지만, 사람이 직접 검토하는 체계여서 이 오류가 발견되지 않았다.
홍 정책관은 "스크립트 작성은 KT와 협력업체가 같이 한 것으로 이해하며, 검토는 KT가 1·2차를 진행했으나 그 부분을 발견하지 못한 것으로 파악했다"고 밝혔다.
사람이 하는 일에는 구멍이 있을 수 있는 만큼, 정보 입력이 수작업으로 이뤄지는 거라면 잘못에 대비할 시스템이 있어야 마땅하다. 그러나 이번 장비 교체에서는 대비가 허술하기 그지없었다.
시스템에 지장을 주지 않고 이 오류를 미리 발견해 수정할 수 있는 가상의 테스트 베드(시험공간)가 없었고, 지역에서 발생한 오류가 전국으로 확산하는 것을 차단할 수 있는 시스템도 부재했다고 과기부는 지적했다.
네트워크도 정상 연결된 채로 교체가 이뤄지는 바람에 전국 망이 위험에 노출됐다.
허성욱 과기정통부 네트워크정책실장은 "네트워크 작업을 야간에 하거나, 이런 작업을 한두시간 시험한 뒤 오픈한다는지 이런 건 10여년 전부터 기본 상식에 통하며, 정부가 규제해야 할 대상인지 아닌지 (의문이다)"라고 지적했다.
허 실장은 "관리자 없이 협력업체가, 그것도 주간에 이런 사고가 나왔다는 게, 파란 불에 신호를 건너지 않아서 교통사고가 난 것 같은, 생각지도 못한 사고라 저희도 당황스러운 건 사실이다"라고 말했다.
(사진=연합뉴스)