見出し画像

災害・点検後のデータセンターの復旧手順

 洪水や地震による大規模停電の発生、定期点検に伴う計画停電、トラブルシューティングのための一部の電源切断、原因を問わず、データセンターの早期復旧を実現するには正しい手順に沿って操作しなければなりません。
 また、稼働停止の影響(データの損失、機器の被害など)を最小限に抑え、システム・機能を復帰させるために、データセンター全体の構成を把握し復旧時の段取りをつけることは極めて重要だと指摘されています。

FS.COM|ネットワーク機器専門通販サイト

データセンターの電力消費の構成要素

 災害や突発事件に備え、データセンターのメンテ・点検が義務付けられ、電源供給の配置・状況を把握する必要があります。それを踏まえて、計画停電時・復旧時の停止・起動手順を決めます
 データセンターの電力消費は概ね4つの構成要素になっています。

データセンターの電力消費の構成要素
  1. 外部または自家発電設備からの電源供給
    中には商用電力、自家のグリーンエネルギー供給、通常の発電機などが含まれる。

  2. 無停電電源(UPS)による非常時の電力供給
    商用電源が停止した場合、発電機を直ちに起動させてもネットワーク機器にとっては致命的です。UPSへの切り替えにより、データセンターは停電を免れ稼働し続けます。

  3. データセンター付帯設備(冷却、排気、照明、警備など)
    データセンターの長時間かつ正常の稼働を支えているのはサーバーやネットワーク機器だけでなく、セキュリティ設備、空調、照明などの付帯設備も電力消費につながっています。

  4. IT機器への電力供給(スイッチングハブ、ファイアウォール、ルーター、サーバーなど)
    データセンターのコアとも言える構成として、データの流れおよび外部との通信やり取りを管理する


電源管理に基づくシステム停止・復旧手順

ソフトウェア上

 データセンターに保存された情報は数多くの機関や組織に関わり、システムによって分類・管理されます。そのため、一部の故障・停電はデーターセンター全体に影響を及ぼしかねません。
 コストとリスクを抑えるために、ソフトウェアからハードウェアに至る流れで計画停止を行います。その後、ハードウェアからソフトウェアまで、順次に起動させることになります。

電源管理に基づくシステム停止・復旧手順

上記の図表を示す通り:
 階層は利用者との「距離」によって、上(終端装置に近い階層)から下(終端装置から離れた階層)まで4つに分けられました。

  • 計画停電を行う際に、上の階層から下まで順次停止する。前の階層のサービスが停止するまで、次の停止作業は実行しません。サービス・機器の動作停止を確認することも大切です。

  • データセンターを復旧させる際は、逆に下の階層から上まで順次起動します。前の階層のサービスが正常動作しているのかを確認してから、次の復旧作業に入ります。

ハードウェア上

1、電源供給の構成要素から給電状況を確認

 発電機やUPSの稼働状況を確認し、出力電圧が正常な場合に外部給電設備に切り替え、次の復旧段階に進みます。電圧異常が起きた場合、給電を停止して軌道を諦めます。

2、周辺の付帯設備・装置を再開

 データセンターの正常動作を維持するための冷却装置、照明、防火、監視、入退室認証などの設備を起動させます。

3、外部に接続しているネットワーク機器から調べる

 ONUやモデムなどの外部インターネットに近い端から復旧を行います。ルーター、ファイアウォール、スイッチ、サーバの順で点検して起動します。
 さらに、ノートPCで正常動作や接続状況を検証・確認し、必要なバックアップ作業やデータ復旧計画を検討します。

4、FC / SANスイッチ、LANスイッチへの給電を再開

 ネットワーク機器のメンテをもう一度確認して、電源を入れます。正常稼働しているのかを検証し、通信やり取りの故障や接続の不安定がないように調整します。

5、ストレージ・サーバー設備を順次起動させる

 前の段階では異常が発生しなかった場合、ストレージ関連設備の電源を入れます。
 複数の物理サーバで構成したシステムであるため、データの損失や混乱がないようにシステムを順次に起動させます。例えば、認証サーバ、アプリケーションサーバ、ウェブサーバの順で。
 その後、データセンター全体の様子を見て、データ通信の制御・管理を行います。

この記事が気に入ったらサポートをしてみませんか?