だと思っています
海外で起こった大事故についてもまだ原因調査中ですが、個人的な意見としてなんらかの人間の意図もしくは故意による操作があったのではないかと思っています。
一時的に止まっていたようですし。
システムの作りとして
基本不具合など問題を検出できる場合は正常に止める、もしくは切り替える処理が入ります。
が、この正常にというのが曲者で、何をもって正常とするか?は設計者や運用者によって改変が可能です。
例えば、大げさにいうと、被害拡大を防ぐためにシャットダウンという手だってあります。
実際どうしようもない状態と判断された場合は電源OFFも運用手順にも記載します。
というかケーブル抜け!っていうのも実際書いたことあります。
ケーブルを抜く=システム異常が故意に発生する=いたるところのセーフ機能が発動するというのを誘発するためでもあるんですけどね。
中途半端な問題の場合
運用や業務への支障、顧客への配慮のため、問題を抱えながら運用することだってあります。
ただ、その場合リスクを把握していないと重大事故につながります。
例が悪いですが、切り傷できたのに傷口ふさがずに運動を続けるスポーツ選手ってかんじですね。
かすり傷と判断して続行していたけど、実は骨とかにも異常があって、続行したがゆえにぽっきりいっちゃった、、、みたいな?
システムや業務も同じで、ん?ってなったところはやはりなにかあるのです。
個人的経験からいうと設計時にん?大丈夫かな?っておもったところは、大抵後工程で問題になります。
っていつのまにか設計の話になってますね( ´艸`)
なにを重視するか
運用マニュアルだって、即時復旧、停止、続行いろんなパターンを記載します。どれを選択するかはその時の人間の判断です。
機械に任せると、停止が一番安全と判定しちゃいますからね。
もちろん対処がほかにもあり、安全に切り替えなり代替え手段がある場合に機械が自動的に判定してくれることもありますが、そういうものは準障害的なもので、エラー検出しました(ワーニング)情報を上げるのと同じなんです。
片系止まりました、、、を重大インシデントととらえるか、正常に切り替えた通常運用ととらえるかは顧客にもよります。
エンジニア的には、設計取り片系切り離しや切替が行われたらそれは正常ととらえ、根本原因を修正にはいる、、ってことですが、顧客によっては、なぜその事象が起きたんだ!H/WかS/Wにかかわらずお前たちが悪いと言ってくることも、、、多々あります。
なにがいいたいかというと、起きる事象全部を列挙するのは難しいですが、問題が発生した(アラートがでた)時、
過少評価、過大評価するかは対応する人次第なのです。
技術者(設計者)やそれに近い人達が発見した場合は、起こりうるケースが想像しやすいためどちらか問うと過大評価(悪い評価)をしがちです。
が、経営者や営業は過小評価(そんなに悪くない評価)をしがちで、動かそうとします。
これは最終的な目的(顧客の利益確保)は同じですが、目先の問題解決地点が異なるからです。
多少今の被害がでても大きくならないよう予防したい技術者vs目先の利益を出来るだけ拾いたい経営者の闘いです。
これは永遠の闘いだと思います。エンジニア出身の経営者(営業)であれば話は早いのですけどね。
まとめ
だらだらとかきましたが、分からない人が分からないなりに判断するのが一番危険なのです、全部を知っている人なんてこの世にいるとはおもえませんが、起きた事象を一番理解できる人、現場で体験し判断できる人の意見をできるだけ尊重できる体制がとれるのが一番ベストなんですけどね。
現場は起きたことは分かるけど判断できないとか、現場の判断無視して継続させようとするデスクとか、、そういうのが無くなる世の中になってほしいと願います。