見出し画像

TWSNMP v4(旧版)の問い合わせ:ポーリング数が多いと障害と誤検知する

今朝は3:33に自力で起きました。助手の猫さんは、夜中にやってきて、かみさんの布団で寝ていたようです。4時ぐらいに呼びにきまします。
昨日は、サッカールヴァンカップの決勝を楽しみました。

一昨日、メールで

TWSNMP旧Verに関しましての質問がございます。

ある1つの機器に対し監視項目(polling/30秒周期)を420ほど入れて
検証を実施しているのですが、あるタイミングにて一斉に200~300個ほどの監視項目で障害が上がる事象が発生しております。

他のSNMPソフトで見てみるとそのタイミングではそういった事象が発生しておらず、障害自体が発生していない状況です。
(pollingの周期の問題もあり、必ずしも他のSNMPソフトで同じ結果にはならないとは思っていますが・・・)

またTWSNMP上で障害(NG)を検知した同タイミングの時刻をWireshark上で確認すると正常(OK)で返ってきていることがありました。

その他、PCのスペックなど原因はさまざま考えられるのですが
まずはソフト側の仕様や制限などがないかを確認させて頂きたくご連絡させて頂きました次第です。

TWSNMPv4問い合わせメール

という問い合わせがありました。
気になったので今朝早起きしたので試してみました。
同じノードに600ぐらいの30秒毎のSNMPのポーリングを設定して1時間ぐらい放置しておきましたが、同じような問題は再現しませんした。

動作環境は、

4コア、8スレッドぐらいの、それほど高性能のPCではありません。

CPUもメモリーも、さほど使っていないようです。PCのスペックの問題ではないように思います。TWSNMPの処理の問題で問題でもないように思います。

ちなみに、TWSNMP FCは、メモリーは10倍ぐらい使っているようです。

問い合わせの現象の原因として考えられるのは、管理対象のノードのSNMPの応答が遅いことです。このためにTWSNMP側でタイムアウトが発生しているのではないかと思います。
TWSNMPのデフォルト設定では、タイムアウトが1秒、リトライ3です。旧版のTWSNMPは、SNMPのポーリングでタイムアウトした場合も障害と判定します。
タイムアウトの値を大きくすれば解決するかもしれません。

2024/11/26追記
その後、問題が発生しなくなったという連絡がありました。
TWSNMPの問題ではなく、問い合わせをした方の環境の問題だったようです。


いいなと思ったら応援しよう!

twsnmp
開発のための諸経費(機材、Appleの開発者、サーバー運用)に利用します。 ソフトウェアのマニュアルをnoteの記事で提供しています。 サポートによりnoteの運営にも貢献できるのでよろしくお願います。