元SEの車・バイクネタ&毒吐き日記、時々仮想通貨

元SEが愚痴ってるだけの日記を記載しています。

【元業務SEの愚痴】ハートビートはサーバ間だけじゃないよ

なにいってるんだ?

ってかんじかもしれませんが、サービスの正常性確認をしていないサービスが多いきがしてきました。

某業務改善命令とかみているとそんな気がしただけです。

 

正常性確認(監視)怠ってませんか?

自社で行っているサービスが全て正常に動いているか監視を自社内だけでおこなって終わりってしているシステムたくさん見てきました。

自ネットワーク内(もしくは鯖単体)では正常性確認してますが外部からはしりまてんパターンですね。

小さいシステムだと専用(もしくは別業務と兼用)外部回線用意するのめんどくちゃい・コストかかるってよく言われますが、、苦情が来るのは基本利用者(エンドユーザ)からですからね。

その目線での監視はしてないといけませんよね、、ね、、ね。。。

 

結局それがないと、アラーム上がらないけど繋がらない苦情ばっかりくる(外部要因もあるけど、その切り分けにもなるし)っていわれるときは大抵入り口が死んでますから。。。

それを普段のアクセス数(平均トランザクション数)とくらべて監視、アラームだしてます。とかって手抜きしていると切り分けが大変です。

ピーク(バースト)監視ちゃうねーん!!

 

結局のところ

保守運用に関する設計は手抜きが多いんですよね、コストばっかりかかりますから。

でも信用っていうプライスレスなものをゲットするためにはコストかけないといけないんですよ。

トラブルおきても、サービスさえ充実していれば、のど元過ぎればなんとやらーっていう考え方もありますけど。自分はえーーーってなります。

 

まとめ

コストをどうかけるかは経営判断もあるのでその会社の方針や体制もあるのでいろいろ障害はありますが、見えない所にも必要なコスト(設計)はしていきましょう。

 

アフィカス

 

Mackerel サーバ監視[実践]入門

Mackerel サーバ監視[実践]入門