ヒヤリハットその3
ICTLINKの河野です。こんにちは。
ヒヤリハットシリーズ第3弾です。
第1弾、第2弾を見逃した方は↓からご覧ください。
※注意※
この記事はエンジニアの古傷を抉る内容となっております。用法用量を守って正しくお使いください。
用法用量を守らない場合は、動悸、息切れ、呼吸困難などの症状を引き起こしたり、最悪の場合死に至ります。
今日のお話はメールサーバーです。
約10000人が利用するメールサーバー(Linux)のリプレース案件を担当することになりました。
この案件、超短納期で難易度も高くて当時の私はお客様の前では気丈に振る舞うものの内心かなりビクビクしていました。
ビクビクしつつも環境調査やら設計やら初期構築までは何とか進められていました。
問題は移行
そう、移行がかなり辛かったのです。
このメールサーバー、IMAPで動いていたためメールサーバー内に溜まったメールがわんさかわんさか
これをどう移行したものかと当時の私は悩んだ結果
今あるメールデータを全部外付けHDDにコピーして新しいメールサーバーにコピーする。
という手段を取りました。
これがすべての過ちでした…。
メールデータをコピーするだけなので業務影響がないことから平日日中帯で作業を実施していました。ただ、作業時間が短かった
私の想定が甘かったのは否定できませんが、予定よりコピーに時間がかかってしまい作業可能時間が迫ってきました。
コピーを仕掛けて帰るというのがNGということで、しょうがない、仕切り直しということでコピーを中断しようとしました。
中断できない
なぜかコピーが止まらない、何回コマンド打っても止まらない。
作業可能時間が地味に過ぎてる。焦る。焦る。
やっと止まった、次は外付けHDDを取り外す。
外付けHDDが取り外せない。
アンマウントコマンドが通らない。
作業可能時間がだいぶ過ぎてる。お客さん半ギレ。焦る。焦る。焦る。
何回かコマンドを実行したところ、アンマウントできた!
速やかに外付けHDDを取り外し片付けをする。
そうしたらお客さんが血相を変えてサーバー室に乗り込んできました。
メールサーバー止まってない?
まさか〜さっきアンマウントコマンド実行したよ〜〜
とか思いながらコンソールを触ってみるものの動かない。
あぁ…ハングアップしてるね。
合わせて強制終了→電源再投入を行い復旧確認
OSが起動するまでコンソールの前で立ってましたが、このときの時間の流れは遅かったなぁ…。
速やかな退館を求められたので調査はできなかったのでどうだったのか定かではないのですが、今思えばアンマウントできていなかったんじゃないかなと。
何事も焦ると良くないですね。特に悪いことうまくいかないことって続くのでなおさら焦るんですよね。負のループ
焦るようなことが起きても平常心でいることが大事ですが、そもそも焦るような状況にならないよう、先読みしましょう。そうすれば平常心でいられるはずです。
これで第3弾のヒヤリハットは以上です。
皆さんも事故にはお気をつけて!