見出し画像

ZoomやDiscordが落ちたのは何故?インターネットはいつでも壊れている

みなさんこんばんは、福田達也です。

昨日のお昼から夜にかけて、zoomやDiscordなどの多くのサービスがつながらない障害が発生していました。全然関係のないはずのサービスが、まるで図ったかのように落ちてしまう…闇のハッカーの暗躍かなと一瞬身構えてしまいます。

今回はなぜこのような事が起こりえるのか、そしてその原因は何故なのかについて、調べてみたので記事にしたいと思います。

何が起こっていたのか?

日本時間の午後三時頃から、DiscordやPixivといった多くのネットワークサービスにおいて、サービスにつながらない障害が発生していました。その後午後六時頃には障害が収束。今では問題なくつながる状態になっています。

サービスが載っているCloudflareに障害

なぜ、提供会社もサービス内容も全く違うインターネット上のサービスが同時に使えなくなったのか、それはこれらのサービスがCloudflareという通して提供されていたからです。

Cloudflareは、インターネットにおいてCDNと呼ばれるサービスを提供している会社で、ざっくり言うとwebサービス用の郵便サービスのようなものです。郵便サービスに障害が発生してしまったために、その郵便サービスを利用する様々なサービスが同時に提供できなくなったわけですね。

Cloudflareが提供するCDNって何?

CDNというサービスがどういうものかについてもう少し踏み込んで説明します。

CDNはContents Delivery Networkの略で、その名の通り、コンテンツ(インターネット上の様々なサービス)を運ぶためのネットワークを提供するサービスです。これは、いわゆるインターネットプロバイダが提供するネットワークの上に構築されていることが多いです。

先ほども述べたように、CDNの仕組みは郵便サービスに近いです。沢山の郵便局が家の近くにあるように、世界中のあちこちにあるCDNのサーバが、サービスを提供する本社のサーバにかわってサービスを提供します。

インターネットにおけるCDNのメリットは大きく2つあります。

1つ目は、コンテンツの提供を早くするためです。仮にサービスを提供するサーバーがロサンゼルスにあり、そこに日本からアクセスしようとします。
そうすると、ページが見たい!という通信は、日本から海底ケーブルを通り、はるばるロサンゼルスまでいって問い合わせ、その結果を受けて表示するわけです。

CDNを利用すると、家の近くでデータを受け取れる

しかし、CDNを利用している場合は、家の近くのCDNサーバ(郵便で言う郵便局)に事前にサービスが用意されています。そこまで問い合わせをすればいいだけなので、短い時間でサービスを届けることができます。

もう一つはDDoS対策です。DDoSとは、簡単に言うと世界中のパソコンから同時にアクセスすることで、サービスをダウンさせようとする攻撃です。

世界中のPCから一斉に攻撃する(DDoS)

『世界中』といったように、まさに世界中からの攻撃で、それぞれの攻撃はハッキングされた私達のPCからだったりします。個々は非常に小さいのですが、数が集まっているため、1つ2つを止めても効果がなく、非常に対策が困難な攻撃の1つです。

CDNを利用することで、これらの攻撃を、攻撃するPCの近くのCDNサーバで受けられるようになるため、同様に攻撃による負荷を分散することができ、サービスを守ることができるようになります。

もっと詳しく知りたい!という方は、小川晃通さんという方が、沢山の詳しい情報を出しているのでそちらも御覧ください。

こちらの書籍もオススメです。


障害の原因はBGPの設定ミス

今回の障害ですが、BGPの設定ミスだそうです。BGPは、Border Gateway Protocolの略で、簡単に言うと、お隣のネットワークにこういう風に通信を通して欲しいと交渉するための手続きです。

インターネットというのは、その名の通り沢山のネットワークが集まって繋がり、1つの大きなネットワークとなったものです。それぞれのネットワークには、NTTやKDDIのように、そのネットワーク自体を所有し、管理している人がいます。

そして、どこかと通信するということは、これらの沢山のネットワークを通って通信を届けるということに他なりません。他の会社のネットワークを通るわけですから、どのように通るかを自分が決めることはできません。あくまで、どのようにして通して欲しいかを伝え、その通りであることを期待するしかないわけです。

今回は、この手続の設定ミスの結果、データセンタに繋がらなくなったことが原因のようです。

 午後3時27分、設定がMCP対応の場所に到達し、MCPに対して設定が反映されると、プレフィックスが削除された影響で19カ所のデータセンターがオフラインになり、障害が発生。

https://www.itmedia.co.jp/news/articles/2206/22/news099.html

 その結果として、ネットワーク全体の4%程度、リクエスト総数の50%が影響を受けたとのことです。今回は、東京データセンターを含むトラフィックの多い19のデータセンターに対して設定変更を行ったとのことなので、特に日本での影響が大きかったのだと思います。

なお、障害による影響は、同社ネットワーク全体の4%程度だったが、リクエスト総数の50%が影響を受けた。

なお、Cloudflareの障害は16時頃に収束しており、22時頃に発生したzoomの障害は別の要因のようです(そもそもzoomはCloudflareを使用していない?)。こちらの原因についてはまた別途調べたいと思います。

インターネットはいつでも壊れている

こういうインシデントがあるとびっくりしますが、実はインターネットは私達の知らない所でいつでも壊れています。ただ、インターネットの柔軟な仕組みが、別の迂回路を自動的に探し出して提供などをしているため、使っている私たちは気づかないだけです。

そして今回のようなインシデントが発生すると、私達の目に見えて障害が発生します。しかし、今回のように、ある程度の時間が経つと自然に収束する。これがインターネットのゆるさと面白さだなと思います。

この話により興味が湧いた方は、是非下記の書籍も読んでみてください。インターネットがどんなものか、理解が深まることと思います。

終わりに

今回は、昨日のCloudflare障害を受けて、何が起こっていたのかを解説しました。

改めて、インターネットで様々なサービスが提供されているのも当たり前じゃないなと感じます。1つのサービスに依存するのでなく、なにか問題が起こって問題なく仕事ができるように準備をしておきたいものです。

また、zoomの障害の原因については今回わかりませんでした。また情報が集まればまた紹介したいと思います。

本日も読んでいただき、ありがとうございました。
また次の記事でお会いできることを、楽しみにしています。

参考文献


この記事が気に入ったらサポートをしてみませんか?