見出し画像

本番作業の切り戻し(フォールバック)計画の立て方

システムの本番作業において、毎回作業が想定通り完了すればそれに越したことはないですが、しばしば想定外の事象が起きます。その際、業務への影響を最小限に抑えるために作業前の状態や業務を継続できる状態に戻すことを切り戻し(フォールバック)と言います。この記事では本番作業の切り戻し計画の立て方についてシェアします。なお、本流の本番作業の作業手順書の書き方はこちらにまとめました。

切り戻し計画の形式

切り戻し計画の基本的な形式は、条件 + アクションの集合です。条件 + アクションの具体的な例としては、「2021/9/13 AM 4:00までに作業が完了しない場合は、直ちに切り戻し手順を実施する」といったものです。アウトプットの形としては単なる箇条書きのテキストや、表形式でまとめたものなどがあります。

ここからは、考えるべき条件とその条件を満たした場合に一般的に取られるアクションについて書きます。

切り戻し条件: 期待結果が得られない場合

作業手順通りに作業をしたが「期待結果」が得られない場合です。非本番環境との環境の微妙な差異が原因でエラーが発生したり、作業にミスがあった場合に起こります。当然ながらこの場合の最も基本的なアクションは「直ちに切り戻しを行う」ですが、例外的な対応を行うことがあります。

手順書に軽微な誤りがある場合はその場で修正して作業を続ける場合もある
作業手順書は事前に非本番環境で検証され、正しいことが前提ではありますが、しばしば作業手順や期待結果の確認方法、期待結果自体の記載が誤っていることが原因で期待結果が得られない場合があります。手順書の誤りが原因であることが明らか、かつ軽微と判断される場合は、責任者に相談の上で修正を行い作業を続けることを許す場合があります。

特定の時限まではリカバリや調査を試みる場合もある
即座に原因は特定できないものの原因の検討が付いている場合や、切り戻しは行うが切り戻し後の検証や再作業計画のために調査を行いたい場合は、責任者に相談の上で後述の特定の時限まではリカバリや調査を試みることを許す場合があります。

切り戻し条件: 特定の時点に達したとき

作業が想定より遅れたり、上述のリカバリ対応を行っている場合に切り戻しの判断を行うために、特定の時点に達したとき、という切り戻し条件を設定します。この条件を満たした場合のアクションは常に「直ちに切り戻し手順を実施する」です。特定の時点として一般的に設定されるものは下記の通りです。

業務影響を出さずに切り戻しができる時点
例えば、システムをAM 2:00 ~ AM 5:00の間停止すると周知していた場合に、AM 5:00を過ぎてもシステムが再稼働しなければ、業務影響が出て(ユーザに迷惑をかけて)しまいます。そのため、切り戻しに1時間かかると想定される場合は「AM 4:00までに作業が完了しない場合、直ちに切り戻し手順を実施する」という切り戻し条件を設定します。

後続作業に影響が出る時点
本番作業では、下記の様にいくつかのブロックに分かれている場合があります。

周知している作業時間: AM 2:00 ~ AM 5:00
① 回線事業者による回線の引き込み(予定時間 AM 2:00 ~ AM 3:00)
② ネットワーク機器の設置(予定時間 AM 3:00 ~ AM 3:30)
③ ネットワーク機器の設定(予定時間 AM 3:30 ~ AM 4:00)

この場合は、後続ブロックの作業時間と切り戻し時間を考慮し、各ブロックの完了に時限を設けます。例えば、切り戻しの想定時間が30分だとすると、③と切り戻しで合計1時間の作業時間が想定されていますから、「AM 4:00までに作業ブロック②が完了しない場合、直ちに切り戻し手順を実施する」という条件を設定します。

また、①で例示した回線事業者による回線の引き込みなど、他社作業の場合は、「想定外事象により作業を中止する場合は〇〇時までに連絡をしなければならない」と決まっている場合があります。この場合はその時間までに連絡ができるように、切り戻し判断の時点はもう少し前に定めておく必要があります。

切り戻し条件: 業務影響が発生した場合

システムを完全に停止している場合は問題ありませんが、冗長化しているシステムを片系に寄せてシステムを稼働させつつ作業するような場合には、「システムにアクセスできなくなっている」という業務影響が発生した場合を考えておく必要があります。この場合もアクションは常に「直ちに切り戻し手順を実施する」です。

切り戻し条件: アラートが上がった場合

本番作業時には、準備作業として監視の停止や静観をしますが、予め想定していないアラートが発生した場合も想定が必要です。この場合も基本的なアクションは「直ちに切り戻しを行う」ですが、例外的な対応を行うことがあります。

前提: 監視の停止/静観
サーバやネットワーク機器には通常「1分毎にping疎通を確認し、3回連続で疎通確認が取れない場合はアラートを上げる」といった監視の設定がされています。そして、例えば上記の監視設定がされている機器に対して3分以上シャットダウンする場合など、作業内容によっては確実にアラートが上がってしまう場合があります。このときは一時的に監視設定を停止したり、作業時間中に対象機器から発生した特定のアラートは無視をする(静観)、という連絡をしておきます。

想定アラートが漏れていた場合は静観して作業を続ける場合もある
こちらは手順書の誤りと同様に、作業を行った場合にはどうしても上がってしまうアラートについて、想定が漏れているために上がっている場合です。この場合は、責任者と相談の上、静観対応を行い作業を続行することを許す場合があります。

周辺機器で想定外アラートが発生した場合は調査を待つ場合がある
ネットワーク機器で作業をしているときに、その機器を経由した通信を行うサーバで想定外アラートが発生した場合などは、作業が原因なのか判断が付きません。この場合は、責任者と相談の上、特定の時限までは通常のアラートハンドリングプロセスにて当該機器でアラートの原因が特定されるまで作業を止めて待つことを許す場合があります。

まとめ

上記が代表的な切り戻しの条件とその場合に取られるアクションです。本番作業においては、当然作業を正しく完了させることが望ましいですが、最も重要なのは業務影響を出さない(ユーザに迷惑をかけない)ことです。そのためには、事前に発生しうる事象を可能な限り想定し、その際のアクションを決めておき、迅速に対応できるようにしておくことが肝要です。

以上です。

この記事が気に入ったらサポートをしてみませんか?