https://blog.cloudflare.com/analysis-of-todays-centurylink-level-3-outage/


Cloudflare에서 자체적으로 대응한 내용이 나와 있습니다.

근본적인 원인은 CenturyLink에서 분석이 나와야 알겠지요

  • profile

    요약하자면 정확히는 모르지만 BGP 업데이트가 많아서 문제가 되었다. 인듯한데
    BGP면 결국 네트워크 장비 라우팅 문제라는거네요.

  • profile
    센츄리링크 문제였다고 들었는데...
  • profile
    - Level3/센츄리링크에서 라우팅 장비를 말아먹는 바람에 (디도스 방어하다가 실수한 것으로 추정)
    - 유효하지 않은 BGP 업데이트가 대량으로 발생하여
    - Level3/센츄리링크 회선을 사용하는 모든 업체가 장애를 겪었다.
    - 클플은 문제를 일으키는 회선을 다른 업체의 회선으로 즉시 교체했으나,
    - Level3/센츄리링크 회선에 서버를 물려놓은 고객사이트는 4시간 가량 계속 장애가 발생했으며 이건 클플에서도 어떻게 할 수 없는 부분이었다.

    대략 이 정도인 것 같습니다.

    Linode를 사용하는 XE타운은 4시간보다 훨씬 빨리 복구된 것으로 보아, 클플에서 회선을 교체하자마자 곧바로 복구되었거나 Linode에서도 발빠르게 회선을 교체한 것 같습니다.
  • profile
    BGP 는 ASN 끼리 네트워크 대역을 교환하는건데, 잘못 전달되면 라우팅이 꼬여요.
    완전 신뢰된 장비끼리만 하는건데 잘못 처리 되었었나보네요.