システムトラブルを解決させる男達のエレジー

何だか最近トラブルが多い。
昔からトラブルメーカーと呼ばれることが多かったが、最近はトラブルに呼ばれることの方が圧倒的に多い。
トラブルと言ってもシステムトラブルのことである。
システムトラブルの対応は、主に夏休み等の長期休暇に多い。
システムを停止して改修や更新が出来るのは、こういった長期休暇だけだから・・・。
だから、こういう時には、私のようなトラブルに慣れた技術者が呼ばれるのです。

人は私のことをこう呼ぶ

土壇場の貴公子
背水のトビウオ
カチカチ山クライマー
泥船キャプテン
四面楚歌の中心で大丈夫と呟く男
困った時の荒くれパンダさん
火だるまで微笑む男
炎上の火元が見える能力者
潜在的問題への放火魔
火事場のダンサー
ダメ元で荒くれパンダさん
絶望を希望に変える男
希望を絶望に変える男
レジェンド
救世主

現場ではいろいろ呼ばれるが、全くいい迷惑である。
しかも、私は「トラブルが起きるとイキイキしだす」と言われる始末だ。
私はトラブルを好き好んでいる訳では無いし、早くトラブルを解決させたいと強く思うだけだ。

ただ、何か「スイッチ」が入る感覚はある。

他人が作ったシステムというものは、はっきり言って当事者意外には全く意味がわからない。
しかし、システムトラブルで困っている人から依頼されれば、誰が作ったものであろうと、何とかして解決しなければならない。
しかも、古いシステムや長期間稼働しているシステムを保守出来るだけの古い技術から新しい技術までを網羅し、ハードウェアや電気に精通している技術者は年々人数が減っている。

プロフェッショナルが減っているのだ。
今回は私がやらなければ誰もやらないのだ。

システムトラブルの解決手法は人それぞれだが、私の場合は、解決の手順は概ね以下の通り。

システムの概要を把握する。
問題と言われる現象を確認する。
本来あるべき動作を確認する。
問題の再現性を確認する。
問題の再現割合を調べる。
他の機能を一通り確認する。
違和感を感じる動作を探して調べる。
総合的に見て違和感のある部分を調べる。
他の問題が見つかったら元の問題との関連を調べる。
全く関係ない部分を疑う。
ここは問題無いと自信を持っている部分を疑う。
ここは完璧という部分を徹底的に疑う。

だいたいこれで問題の原因が見つかったり、新たな問題が見つかったりする。

原因がわかれば、対応は簡単だ。

新たな問題は元の問題と原因が同じであることが多い。
だいたい、問題の周辺には見つかっていない問題が隠れていることが多い。
それを辿れば自ずと原因に辿り着く。

今回のトラブルも厄介だった。

今まで何のトラブルも無く数年間動き続けているシステムが急に止まったので、助けて欲しいと連絡があった。

現場に向かうと、依頼者が膨大な量の設計書や仕様書を用意して待っていた。

しかし、私は知っている。
それらの文書は正確では無いことを。

システムの仕様が変わったり、設計書と異なる手法で開発したり、改造を加えた場合に、それらの文書を改訂していないことが多いのだ。
私はシステムの概要だけがわかる設計書と取扱説明書だけ簡単に目を通した。

そして、いつもの手順でシステムの動作を調べた。
一つ一つの機能は全て正常だった。
しかし、システム全体としては正常に動作していない。
完全に再現性のあるシステムトラブルだ。

これは時間がかかるパターンだ、と思った。

こういう場合は単純なミスが原因であることが多い。
単純なミスほど原因の特定は難しいのだ。

もう一度全ての機能を確認した。
数年間動き続けているシステムだけあって、全ての機能が完璧であった。
しかし、システム全体としては正常に動いていないという事実がそこにある。
再現性のあるシステムトラブルに偶然はあり得ない。
原因は必ずある。
説明のつかない現象にも必ず原因はあるのだ。

私は一切の先入観を捨て気持ちをリセットし、周りを見渡した。
そして、ある違和感を感じた。

私は全く関係無いと思われていたLANケーブルを調べ始めた。
通信時に点滅するスイッチングハブのランプに違和感を感じたからだ。

違和感の説明はなかなか難しい。
知識や経験やスキルから総合的に感じる、理屈に合わない現象だからだ。

私は違和感を徹底的に調べた。

すると、ほとんど同時に点滅するはずのスイッチングハブの複数のランプのうち、一つだけ点滅がズレていることを発見した。

依頼者は「それはあり得ない」とか「気のせいでしょう」とか「たまたまでしょう」という言葉を繰り返していた。

しかし、システムが動いていないという事実とランプの点滅に異常があるのは事実であり、何らかの問題があるのは間違いない。

そして、調べているうちに、そこに幾つかの問題点を見出だした。
そして幾つかの仮説を考え、仮説を一つに絞り込んだ。

間違いない。
問題はLANケーブルと通信機器にある。

問題があると思われるLANケーブルを他のケーブルに交換してみた。
見事にシステムが正常に動き出した。

良かった。

呆気にとられる依頼者。

私は問題のケーブルをカッターナイフで縦に裂いてみた。
ケーブルの中の細いケーブルが一部溶けていた。

私は依頼者に説明した。

「このケーブルはSTPケーブルです。
きちんと通信機器の接地(アース)をとらないと、通信機器間の電位差でノイズが生じます。
しかもこれはケーブルが長いので細くぐるぐる巻いて結束バンドで固定されていました。
触った時に全てのLANケーブルが熱かったのが気になりました。
通信機器を接地していないSTPケーブルはノイズを拾いやすいので、パケットを正常に送信出来無いことが多くなります。
パケットが正常に送信出来ないと、システムはパケットを正常に送信出来るまで繰り返し頻繁に再送信します。
つまり、ケーブルに電流が流れたり止まったりを頻繁に繰り返す状態だったのです。
そんな状況でケーブルを細く巻いたら、ケーブルに磁力が発生し、新たな電磁波の発生源になります。
それが更にノイズの原因になるという悪循環に陥ります。
つまり、その悪循環の繰り返しでケーブルの一部が発熱して溶けてしまったという訳です。
一見ランプが点滅していて通信しているように見えましたが、ケーブルの中がショートしてデタラメな電気信号が流れていただけなのです。
これで通信機器が故障しなかったことが不思議な状況です。
ある意味ラッキーな状況です。」

まだ納得していない様子の依頼者。

巻いた状態のケーブルと、巻いていない状態のケーブルをそれぞれ触ってもらった。
明らかに巻いた状態のケーブルの方が熱い。

ようやく納得して頂いた。

少なくとも、システム全体が動き出した事と、ケーブルの一部が溶けていたことが全てを物語っている。
今まで正常に動いていたこと自体が「たまたま」だったのだ。

そして新たな問題が露呈した。

全ての機器を接地させるか、LANケーブルを接地を必要としないUTPケーブルに変更しないと、また同じ問題が発生する可能性が高い。

ところが、そこはノイズの発生源が多い現場だったので、強いノイズには弱いUTPケーブルに変更するという選択肢は無い。
結論としては、全ての機器を接地させなければならない。

ところが、スイッチングハブを含めて、幾つかの機器は接地に対応していない製品だった。

このシステムの開発者はシステム設計と機器選定の段階でミスを犯していたのだ。

当面はケーブルの交換で対応出来るだろう。
しかし、ケーブルのショートの仕方によっては、通信機器まで壊れてしまう。

根本的な解決には高価な機器の購入が必要となる。
頭を抱える依頼者。

これはいつか必ず起きた問題である。
数年間システムを稼働させ、熱でケーブルが劣化したことでトラブルが発生しやすい状態になっているのだろう。
このトラブルは偶然ではなく必然だったのである。

システムトラブルに偶然はあり得ない。
必ず原因があるのだ。

私はその原因を特定するのが得意だ。
私のことをプロフェッショナルと呼んでくれる人もいる。

しかし、依頼者からは喜ばれることもあれば、今回のように依頼者を困らせてしまうこともある。

お客様に喜んで頂くのは何よりも嬉しいことだが、困らせてしまうのは何とも後味が悪い。
「ありがとう」と言ってくれる顔が明らかに曇っている。

残念だが、後はお客様が決めることだ・・・。

私はため息をつきながら現場を後にした。
次のトラブルが私を呼んでいる・・・。
次のトラブルこそは前向きな形で解決させたい・・・。

今のIT社会は、実はこのようなシステムトラブルの繰り返しの上に成り立つ、非常に不安定なものなのです・・・。
だから、私はIT機器や社会基盤となるシステムを一切信用していない。
悲しいけれど、これが現実なのです・・・。

システムっていうのは、大勢の人が作り上げる物です。
人が作る以上、必ず不具合は存在するのです。
それが複数人数で作ったものであれば、あちこちに不具合の原因が隠れているのです。
だからトラブルは、想像もしなかったような場所から現れる。
だから、私のような技術者が未だに必要とされているのです。

新元号対応とか、サマータイムの導入は、年とか時間を変更するだけだから簡単でしょ、とか言ってる人がいたら、是非伝えてもらいたい。

「もしトラブルが発生した時に責任とれる?」

ってね・・・。
どうせその時は、私みたいな技術者が、マスコミにもクローズアップされず、人知れず、黙々とトラブル対応し、みんなは何事も無かったかのように過ごすのですよ。
あの2000年問題の時のように。
いや、IT機器が爆発的に増えている分、今の方が大変かもしれない・・・。

何事も起きませんように・・・。

#システムトラブル #解決法 #トラブルに呼ばれる男 #土壇場の貴公子 #背水のトビウオ #カチカチ山クライマー #泥船キャプテン #四面楚歌の中心で大丈夫と呟く男 #困った時の荒くれパンダさん #火だるまで微笑む男 #炎上の火元が見える能力者 #潜在的問題への放火魔 #火事場のダンサー #ダメ元で荒くれパンダさん #絶望を希望に変える男 #希望を絶望に変える男 #レジェンド #救世主 #新元号 #サマータイム

いいなと思ったら応援しよう!