仕事・出世・会社

東証システム障害の真相は?元富士通の営業がわかりやすく解説します。


2020年10月1日、東京証券取引所のシステムが
丸一日完全に停止しました。

投資家の方を含め、世間的にも大きな被害がありました。
この東証システムの障害について、元富士通の営業としての
観点で解説をまとめてみました。

(目次)
・障害の直接的な原因
・2006年に発生した時の富士通の対応
・システム構成で驚いたこと
・東証の一日停止の判断は妥当か?
・おそらくであろう現場の混乱は・・・。
・まとめ

・障害の直接的な原因


東証からの発表
大きくまとめると以下の通りです。
①共有ディスク装置のメモリ障害が起因
②バックアップディスクへの切替ができなかった

まず、メモリ障害という言葉が、
システムを担当していた人間からすると、
あまり聞かない言葉で、・・・?でした。

私が営業担当で、バリバリだったころは、
ディスク障害は、よく聞く言葉でした。

「ディスクが、ネットワークが・・」は
しょっちゅう耳にしてましたけど、
メモリ障害・・?何それ?というのが正直な感想です。

但し、私自身は、富士通を退社してから、
12年経っておりますので、そのころと比較し
相当、進化しているでしょうから、そこはご容赦ください。

で、色々調べ得ていると、東証のシステムは
DB(データベース)をメモリ上に保持しているとの
ことなので(インメモリDBっていうらしい)、

そういうことであれば、メモリ上での障害は、
きわめて重大なものになる、と予想はつきます。

もう一つの、バックアップへの切替ができなかった・・。。
これは、システム運用あるあるですね。

ただ、インフラ系の極めて重要なシステムである、
証券、銀行、役所、警察、電力、防衛等については、

そういう事態が起きないように、
冗長化(いわゆる二重化、三重化)がされています。

本番機がアウトになったら、バックアップ機に瞬時に切り替わって
障害が発生した方を、修理している間はバックアップで運用する。

そして、システムを使用しない時間帯に、本番機に戻す。
あるいは、そのまま運用させ、本番機とバックアップ機の
位置づけを入れ替える・・というやり方です。

ITエンジニア始めるならネットビジョンアカデミー(NVA)

・バックアップ切替・・・私の辛い経験


切り替わらないことって、あるんですか?
ありますよ。経験もあります。

私の場合は、ネットワーク機器でしたが、マザーボードが
故障したのですが、今回と同じく、完全に壊れていない状態。
かすかに生き残っている状態ですが、通信は極めて遅い。

現場のCE(いわゆるハード屋さん)は、「壊れていないから、
どうしようもできない」との発言。

でも、冗長構成であることは、当然頭に入っていたので
鬼のような形相で起こっているお客さんを、遠ざけて
私はCEさんに「ボードを抜いてくれ!責任取る(取られへんけど)!」
と、指示をしました。

結果・・・・・、バックアップボードに、切り替わりました。
簡単に書いてますが、ここまでの判断に3時間は要しました。

当然、導入時には切替のテストを、十分実施しています。
それでも、運用上こういうことが、実際には起こりうるんです。

何が言いたいかというと、どれだけ想定していても、
想定外の障害というのは起こるものだ!という前提で、
システムは運用しなければいけません。

今回の場合もメモリ障害って、マスコミの方は書いてますが、
シンプルなその言葉の奥には、こういうことが隠れています。

・2005年に発生した時の富士通の対応


富士通は、過去に2度、2005年、2012年と、
東証システムの障害にかかわっています。

今回を含めると3度目です。15年で3度。5年に1回。
この頻度を多いとみるか?少ないとみるか?

一般民需担当を、担当していた私からすると
「むちゃくちゃ安定してるやん・・」って
思ってしまいますが、インフラ系のシステム担当は
そういう意識では、おそらく務まりません。

2005年の発生時は、私も在籍していました。
ですので、よく覚えていますが、とにかく
当時の黒川社長の動きが、非常に素早かった。

対外的よりも、社内的に事実を明確に伝え、
緊張感を持たせるとともに、組織の在り方を
すぐに変えました。

社会インフラにかかわる部門については、
障害が発生した場合の影響と、システムの重要性を
徹底させるために、組織をわかりやすくしつつ、
ミッションを与えたように、記憶しています。

私たちは、社会インフラの一翼を担っているんだ
という、今考えれば当たり前のことを、社員一人
ひとりに植え付けてくれた偉大な社長でした。

・システム構成で驚いたこと


まずびっくりしたのが、当然メインフレーム(汎用機)※1で
運用しているものとばかり思っていた、東証アローズシステムが、
オープン系※2のサーバで運用されていたことです。

※1:メインフレーム(汎用機)
わかりやすくいうと、OSから、CPUに至るまで
全て自分の会社で作っているコンピューター。
銀行や、官庁などでは今も使用されている。
コストが高いが、信頼性には優れる。
黒い画面に緑の文字・・って、言えばイメージつきます?

※2:オープン系システム
WindowsやLinuxなど、PCをベースとしたシステム。
コストパフォーマンスが良いが、OSやCPU等は、
他社に依存する為、信頼性はメインフレームと比較し劣る。
開発言語の多様性があり、選択肢が豊富。

いや、どんだけ情報遅いねん!って思われるかもしれませんが、

信頼性が一番要求されるシステムで、
しかも、勘定系のバリバリ重要なメインシステムで
オープン系ってどうなん?というのが、時代遅れの元富士通営業の意見です。

そもそも・・・の、選択肢大丈夫?とおもわざるを得ないですが
時代の進化、技術の進歩、開発者のリソースなどを考えると
妥当な選択肢なんでしょう。

が、私みたいに古い人間からすると「そら、オープン系やったら
こけても(障害起きても)、しゃあないわな」って思います。

今は技術が進歩しているから、当時とは全く違う!
というご意見はもっともでしょう。

でも、聞いてください。

OSはLinux、CPUはインテルで作成している製品ですよ。
アップデートがあったりしたら、というか頻繁にある世界で
どのように整合性をとってるの?単純なことから疑問に思います。

深い内部のところまでを、メーカーが制御できない仕組みで
動いている以上、障害が起こったときのリカバリーはどうするの?
こういう疑問もわいてきます。

ITエンジニア始めるならネットビジョンアカデミー(NVA)

私のお客様では、お一人だけは「勘定系のシステムは絶対に
オープン系に移行しない!」というお客様がいらっしゃいました。

そのお方いわく、
・オープン系は、確かに安くて、それなりの信頼性もあるが、
・最終的な保証がメーカーにできない
・ウィルスやハッキングに対して脆弱である
ということから、メインフレームを使用して頂いておりました。

ただ、目の前のコストや、開発者のリソースは問題ですよね。
COBOLの開発ができる人も、どんどん少なくなっていますしね。。

でも、結局、いろんな管理ソフト、監視ソフトやミドルウェアが
必要になって、どんどんわかりにくくなってますからね。。。

私が在籍していた終盤の2008年頃は、既にUNIXのサーバは
SEでも見積ができないくらい複雑になっていて、見積専門の
部隊があったくらいですからね。。

・東証の一日停止の判断は妥当か?

結論、妥当でしょう。

どれだけ想定しても、想定外のトラブルが起こった以上
無理やり動かしたうえで、二次被害が起きる・・・
つまり、再度サーバがダウンすると目も当てられません。

おそらく、無理に動かしていたら、二次被害が
起きていたことは容易に想像ができます。

外野は(というかシステム運用経験がない人)、
色々と意見があるでしょうが、正しい運用判断を
されたと言えます。

そこに至る判断は、苦しいものがあったとは
推察しますが、英断でしょうね。

・おそらくであろう現場の混乱は・・・。


現場は、おそらく大変な状況だったでしょう。

障害の現場は、お客様が怒り狂う中で、
原因追及と切り替え作業を実施しなければいけない
大変な修羅場です(15年前の情報ですが)。

とにかく、営業はお客様とコミュニケーションを
取らなければいけないんですが、同時にSEとCEからも
的確な状況をヒアリングしなければいけません。

大規模なシステムですから、
おそらく担当ごとにかなりの細分化された
割り振りもあるため、複数人で対応し、
それをまとめる人も必要。

そういう混乱を極めた状況の中で、感情的に
なりやすい人もいるため、営業はその人を抑えに
かからなければいけません。

まず、作業をしている人間とお客様が、
話をしてしまうと最悪です。

まず、作業者の手が止まる。これが一番問題。
ついで、作業者は悪気なく、時間の約束をしがちです。

「あと、何時間で終わります。」。
この言葉で何度苦しめられたか。
頼むから、勝手にいわんとってくれ!と何度もお願いしましたね。

ですので、とにかく営業が盾になって、SE、CEを
守らなければ、最終的に自分に跳ね返ってきます。

こういう状況で、逃げる営業、現場に来ないで
怒鳴り散らす営業の上司は最低、最悪です。

「あ・・そう。終わったら報告して。お客のトップには
俺が説明に行くから待っといて。」くらいの軽い感じで
対応してくれた上司は、どれだけ楽だったか。

昨日の障害は、あまりにも規模がでかすぎて
ちょっと想像できないですが・・・。

また、昨日の東証の記者会見では、「富士通に責任はなく
現時点で、賠償請求をする予定はない」と、明言されていました。

これも素晴らしいパートナーシップですよね。
ずいぶん時代は変わったと思いました。

昔は、何が何でもベンダーが悪い!みたいな人が
たくさんいましたからね。。

頑張れ!富士通!!現場の人はみんな、必死でやってます!
応援してます!!

・まとめ


「システム運用に、絶対は存在しない!」
ということを、強く言いたいです。

素人のコメンテーターが「クラウドに・・」
とか言っているようですが、そういう問題ではありません。

止まることを想定した運用が必要なんです。

止まったことを殊更騒ぎ立て、犯罪者のように扱うことは
絶対にあってはならないことです。

昔は、止まったときのことも考えた業務フローありきで
システム開発すべきだと、よく怒られました。
実際は、すごく難しいんですけどね。

でも、100%稼働し続けるシステムなんて存在しませんし、
システムに頼り切っている現代社会も問題が大きいです。

デジタル庁・・・は、発想としていいですが、
問題が起きたときのことも想定しておかなければ
大変なことになりますよ!

ITエンジニア始めるならネットビジョンアカデミー(NVA)

「学びなおし」で一歩踏み出そう!

超士業塾のコンテンツは、有料級! 士業での独立・開業をお考えの方はぜひご覧ください。前のページ

行政書士試験の合格体験記!資格Liveさんに掲載されました!!次のページ

人気記事

記事一覧

ブログランキング参加中です!ご協力お願いします。

にほんブログ村 資格ブログ 行政書士試験へ
にほんブログ村 資格ブログ ビジネススキルへ

  1. その他の資格・勉強

    簿記2級試験!勉強の実況中継⑫やっぱりカギは工業簿記やな。
  2. 行政書士資格

    的中率は抜群!コンデックス研究所の行政書士 直前予想模試問題集!
  3. 仕事・出世・会社

    スカイドライブという会社をご存知でしょうか?
  4. 仕事・出世・会社

    新型コロナウィルス・・・もう勘弁してください!!
  5. その他の資格・勉強

    300記事を超えましたので、ちょっと真剣にブログやります。
PAGE TOP