
【サイバーセキュリティ】信頼性を表す重要指標「MTBF」
はい、こんにちは。前回記事からの続きです。システムの品質を評価するための基準「RASIS」について、紹介していきます。
前回は一つ目の要素、「信頼性」(Reliability)とは何かを途中まで紹介しました。「故障しにくいこと」が、システムの信頼につながるということでした!

今回は、信頼性の続きです。その信頼性の定量的な指標である「MTBF」と、故障率について見ていくことにしましょう。これで、「信頼性」を数字で測る方法が分かるはず。
ということで早速いきましょう!
「MTBF」とは何か?
まずはMTBFとは、何でしょうか。また、頭字語ですね。
MTBFは、「Mean Time Between Failures」、 「平均故障間隔」という意味です。英語の意味が分かれば、その指し示すことが何かだいたい感じ取れますね。
より詳細には、「システム(機器)が稼働を開始または再開してから故障するまでの平均時間」ということになります。
ですから、単位は「月、日、時間」などとなります。数値が大きければ、信頼性は上がります。

でも、どうやって計算するのでしょうか?
「MTBF」の計算方法
はい、ではMTBFの計算式は、こうです。
MTBF = 総稼働時間 / 故障回数
シンプルですね~。例えば、稼働開始(再開)から故障までの時間が、500時間、600時間、700時間であれば、3回故障したので、
MTBF = (500 + 600 + 700) / 3 = 600時間
となります。ふむ、これは納得!

稼働時間の値はどう集めるのか?
計算式は、分かった。でも、どうしても疑問が残ります。
その「稼働時間」「故障回数」の値ってどうやって集めるのか、という疑問です。1台のサーバを稼働→故障・修理→再稼働→故障・修理…と繰り返してやっと算出できることになりますね。いつまで待ったら算出できるようになるのでしょうね?2,3年?
確かに、そういう場合もあるでしょう。しかし、同じ機器を複数導入して稼働しているのであれば、1台にくらべてより多くの「稼働時間」のデータが得られます。
これらの複数の機器の「稼働時間」や「故障回数」を足し合わせるのです。この場合は、長い期間待たずとも、MTBFが分かるようになりますね。

修理にかかる時間を考慮していない
ここで注目しておきたいのは、「修理にかかる時間」が数式に含まれていない点です。
どんなに連続稼働する時間が長いシステムでも、一度壊れたら最後、「簡単には直せない!直すのに一か月かかります!」では、そのシステムは評価されませんね。
どうやら「修理しやすさ」の指標も必要そうですね。これについては、次回以降にお話しします。

故障率λとの関係は?
故障率の方は、どうでしょうか?次のように算出されます。
故障率 = 故障回数 / 総稼働時間
上記の例のように、稼働開始(再開)から故障までの時間が、500時間、600時間、700時間であれば、3回故障したのなら、
故障率 = 3 / (500 + 600 + 700) = 0.166666%
となります。故障率は、小さいほど信頼できるということになりますね。使っている変数がMTBFと同じですね。ですから、故障率を見てもMTBF同様信頼性を評価できます。
はい、本日はここまで!今回は、信頼性の指標であるMTBFの計算方法などについて紹介しました。
次回は、可用性を飛ばして、保守性の話をしましょう!では。