インターネット障害はもはや地球規模!障害対策のあるべき姿とは?
米Fastlyが提供するCDN「Fastly」で6月8日に障害が発生し、アジア、欧州、北米など世界中のインターネットサービスに影響を及ぼしました。
日本でもメルカリ、楽天、読売新聞、ABEMAや、政府機関である金融庁・環境省・人事院・厚労省・国交省の関係サイトにおいて影響があったことが確認されています。
Fastly社の発表によると「未確認のソフトウェアバグ」が「特定の顧客のサービス設定変更がトリガー」となり、「グローバル規模の障害」が発生したとのことでした。
引用:Fastlyのネットワークの85%で障害発生、未確認のバグが原因
https://scan.netsecurity.ne.jp/article/2021/06/14/45811.html
今回はこの障害から感じた小話です。
CDNとは?
CDNとはコンテンツデリバリーネットワークの略です。大容量のコンテンツをインターネット上で大量配信するためのネットワークのことです。
従来、コンテンツを公開すると、アクセスが集中した際はWebサーバーがダウンしたり、ネットワークに過剰な負荷がかかってしまう問題がありました。
CDNではエッジとよばれる末端のシステムを世界中に配置し、エッジ内にコンテンツをキャッシュさせ、ユーザーのアクセスを最寄りのエッジにアクセスさせることでサイトの反応速度を向上させる仕組みです。
要するに郵便局も、大きな郵便局へ出向かなくても、地域の小さな郵便局があって、手紙を出すだけならもっと近くのポストに投函すればいいという仕組みと似ています。
障害の原因は?
さてさて本題に戻ります。CDNのサービス提供事業者はあらゆる障害パターンを想定し備えます。何重にも何重にも冗長化し、耐久性・回復力の高いシステムを構築します。(これはCDNに限った話ではありません。重要なインフラシステムについて共通すると思います。)
今回の障害は、
・「未確認のソフトウェアバグ」(原因)
・「特定の顧客のサービス設定変更」(きっかけ)
・「グローバル規模の障害」(影響範囲)
が重なって、想定外の事象を引き起こしてしまいました。
一つ一つを予測・警戒することは可能ですが、これらの要素が掛け算されたとき事前に想定するのは極めて困難でしょう。
しかしながらCDNは地球規模で整備されています。このようなグローバル規模のサービスは想定外をつぶし、可用性を高めるための取り組みは重要な課題と言えると思います。
障害対策の格言
人を噛む犬はいるが
犬を噛む人はいない、と言えるか?
ありえないと思えることも「人が想像」してみる。まずはそこから始まるのだと思います。
障害対策には必要な考え方だと思いますが、緊急度の高いあらゆる場面で応用できる考え方だと思いますので、参考になれば幸いです。
ちなみに前述引用した記事によれば事象発生から1分以内に障害を検知、原因を特定して隔離、該当の設定を無効化し、49分後にはネットワークの95%が復旧したとのことでした。
これは相当レベルの高い対応だと思います。Fastly社のエンジニアの皆様の対応、本当に素晴らしいと思います。この記事は、障害対応やサービスの復旧について言及するものではありません。
この記事が気に入ったらサポートをしてみませんか?