카카오 장애 발생에 대한 생각
며칠 전 작성한 “카카오 투자자 졸지 마라”란 글을 올린 다음날 화재가 발생해버리니 참으로 당황스럽다.
게다가 오늘까지도 카카오 전산센터 화재로 많은 사람들이 불편함을 경험하고 있다.
티스토리 블로그 서비스를 사용하는 내 입장에서도 복구되지 않는 서비스를 보며
왜 이렇게 장애복구가 늦어질까에 대한 생각을 해보게 되었다.
대다수는 서비스 복구지연에 대해 서버 이중화의 부재를 문제로 소리 높여 말하고 있다.
나도 이에 어느 정도 수긍하지만 근본적인 이유는 아니라고 본다.
#여기서부터는 저의 망상입니다.
- 수평적 기업문화
대형전산서비스 운영을 위한 전산 인프라구조는 핵심 서비스에 부가 서비스들을 붙여가며 성장하게 된다.
기업조직구조 또한 메인 업무를 중심으로 상하관계의 조직형태를 가져가면서
군대와 같은 상하 보고체계를 만들 수 있다.
이 수직적 체계는 전산장애 시 빛을 보게 되는데 장애 복구를 위한 의사결정 속도나 이슈 해결에 있어 으뜸이기 때문에.
평행기업문화라는 가치를 포기하더라도 위와 같은 조직구조를 선택하는 것이 현실적인 판단임을 부정할 수 없다.
이는 문제를 해결을 위한 옳은 의사결정과 잘못된 의사결정에 대한 책임여부를 따지기 확실하기 때문이다.
(내가 기업의 오너라도 영속적 기업 운영을 위해 어쩔 수 없는 선택)
"인간은 본능적으로 자신을 위험에 노출시키는 것에 대한 두려움을 느끼게 된다."
카카오그룹처럼 평소 평행조직관계를 추구하는 기업일수록 그리고 업무 집중화되지 않고
개인의 개성을 인정하며 분산화된 업무 구조를 가진 기업에 소속한 이들이
과연 이번 같은 대형전산사고 시에 어떻게 대응했을 것인가 상상해보면 재밌다.
해당 기업의 임직원들도 우리 서비스 사용자들과 마찬가지로 카톡을 사용하다
장애가 있음을 인지했을 것이고 메스컴이나 기사를 통해 데이터센터 화재에 대해 알게 되었을 것이다.
그리고 이 장애사실을 공지받거나 혹은 공지하거나 사후대책에 대해 의논 및 행동을 해야 되지만
카카오톡이 먹통이라 임원급 행동주의자가 아닌 이상이야 모두 손가락만 빨면서 연락을 기다리고 있었을 것이다.
그리고 소수의 누군가는 리스크를 짊어진 채 의사결정하며 발 벗고 나섰지만 자발적인 참여자 및 동조자가 없었기 때문에
아무런 결론에 다다르지 못한 채 시간만 지나갔을 것이다.
(그 결과 너무 노답인 상황때문에, 장관주재 정부 상황실까지 열린 게 아닐까?)
아 물론 결국 결론은 나오긴 했다. "카카오톡부터 우선 살려봐"
- 급성장을 적응하지 못한 전산환경
많이 지적되던 카카오그룹의 문어발식 사업 확장 전략은 매우 확실하고 빠르게 내수시장 점유하여 성장되어 왔으나
전산환경이라는 것은 현대기술 중에서도 나름 하이테크로 분류됨에도 빠른 환경변화에 취약하다.
거미줄처럼 엮인 서비스들은 평소엔 제대로 작동하는 듯 하지만
장애 발생 상황에서는 그 거미줄들이 장애 복구 지연을 발생시키는 주요 원인이다.
(간단하고 편리할수록 복잡해져 가는 것이 프로그램 소스코드의 생리이다.)
카카오의 여러 서비스들은 각기 다른 개발언어와 프레임워크, 서버 환경, 데이터베이스 환경을 가지고 운영되는 데
이들 조직 자체도 중앙집중형이 아니다 보니 무언가 장애가 발생할 것에 대한 생각은 해보았겠지만
실질적으로 장애 발생 시 복구에 대한 연습 또는 훈련이 현재까지 부재했을 것이다.
그런데 이것이 잘못되었다는 것이 아니라 카카오 임직원들에 대해 어느 정도 생각을 해주어야 한다.
매일같이 신사업 확장에 차세대 프로젝트에 대/외 서비스 간 연동에 눈코 뜰 새 없이 바쁜 일과를 지내는 이들에게
누군가 나와서 "장애 발생을 대비해서 하던 일은 좀 두고 장애 복구 연습을 하자"라고 한다면 미친 사람 취급당할 것이다.
누군가는 데이터베이스 버전을 올리는 환경을 만들기 위해 몇 주, 몇 달간 테스트 환경을 구성하고 있었을 것이고
누군가는 형상관리 시스템 차세대를 위해 시스템을 새로 만들고 있었을 것이고
누군가는 기업의 신규 핵심 서비스 론칭을 위해 끝도 없이 밤을 지새우고 있었을 것인데
어디서부터 어디까지 얽혀있는지 파악도 안 되는 실타래를 가지고 장애 복구 연습을 할 수 있는지
이 훈련을 처음 진행하게 되었을 때 발생할 조직과 임직원 개개인의 손해는 상상하지 못했을 것이다.
(항상 전산실에서 장애 대응훈련은 마치 "북한이 설마 쳐들어오겠어" 같은 망상 취급을 받기 좋은 재료이다.)
결국엔 카카오톡이라는 나무를 제외한 주변 가지들과 거미줄들을 다 불태우고
카카오톡을 먼저 살려낸 선택은 매우 탁월했지만 아직도 안심하긴 쉽지 않다.
카카오톡뿐만이 아니더라도 이외 서비스에 있어서 반드시 사라진 고객 데이터가 있는지
잘못되고 있는 서비스가 있는지 개별 서비스 담당자는 긴장의 끝을 놓지 않고 확인해야 한다.
또한 장애 중 취약점이 해커에게 드러났을 수 있기 때문에. 고객정보보안에 특히 더 집중해야 할 것이다.
"투자자가 변동성을 좋아하듯이 해커들은 돌발상황을 좋아한다."
마지막으로
국민 메신저 복구에 참여하고 계신 국가 상황실 및 카카오그룹 컨트롤 타워 근로자분들 진심으로 응원합니다.
'금융뇌피셜' 카테고리의 다른 글
지방 출신 흙수저 서울 생활 로드맵 (1) | 2022.10.21 |
---|---|
김프 차익 거래 방법 (4) | 2022.10.17 |
카카오 주가 폭락에 관한 투자 아이디어 (5) | 2022.10.11 |
택배박스 분리수거를 하면서 느낀 경기침체 (1) | 2022.10.09 |
여권 발급 방법 (1) | 2022.08.21 |