6月20日にレンタルサーバサービスを提供するファーストサーバが大規模障害を引き起こし、顧客データが消滅するという事態が発生しました。事件の詳細は同社サイトに掲載されているので、そちらを引用します。
■ 障害の原因
原因1:脆弱性対策のための更新プログラムの不具合
脆弱性対策のためのメンテナンスが必要となる都度、メンテナンスのための更新プログラムを作成しており、今回も更新プログラムを作成しています。
そのプログラムの記述において、ファイル削除コマンドを停止させるための記述漏れと、メンテナンスの対象となるサーバー群を指定するための記述漏れが発生していました。
原因2:メンテナンス時の検証手順
メンテナンスに際しては、検証環境でまず動作確認を行うという手順が定められていましたが、プログラム実行後の動作確認を行う対象は、あくまでも当該メンテナンス対象サーバー群を確認すれば足りるとされていたため、検証環境下で対象サーバー以外に影響が及んだことの確認がないまま、動作確認上は問題なしと判定され本番環境での実施が行われました。
原因3:メンテナンス仕様
システムを含むデータのバックアップは毎朝6時に取得しております。
しかしながら、脆弱性対策のためのメンテナンスはバックアップをしてあるシステムについても実施しておかないと、メンテナンス実施後にハードウェア障害が発生してバックアップに切り替えた途端に脆弱性対策が講じられていないシステムに戻ってしまうことが過去に発生し、脆弱性対策がなされていないシステムが動き続けていたという反省に立ち、脆弱性対策のメンテナンスに関しては対象サーバー群とそのサーバー群のバックアップ領域に対して同時に更新プログラムを適用するという構造に修正して実施しました。
そのため、今回のメンテナンス実施において、対象サーバー群のデータ消失と同時にバックアップ領域のデータも消失したという事象に至っています。

多くの企業が同社のホスティングサービスを利用しており、ネット上のいたるところでその影響を知ることができます。たとえば、小林製薬ではアイボンなどの製品ブランドサイトがファーストサーバを使っていました。109シネマズでもシアター情報が見れなくなっています。
(6月26日現在、ほぼ復旧済)
他に以下の企業が影響を受けたとのことです。
LOFT PROJECT http://www.loft-prj.co.jp/
薬事日報 http://www.yakuji.co.jp/entry26779.html
スーパーマーケット ヤオコー http://www.yaoko-net.com/
マルカン http://www.marukan.org/
株式会社ダイセル http://www.daicel.com/
株式会社 喜信堂 http://www.kishindo.co.jp/
nikoli.com http://www.nikoli.com/
長野電鉄 http://www.nagaden-net.co.jp/
カルディ http://www.kaldi.co.jp/
海遊館 http://kaiyukan.com/
公益財団法人 日本郵趣協会 http://yushu.or.jp/
クラウド http://www.hs-crowd.co.jp/
学士会館 http://www.gakushikaikan.co.jp/
劇場版花咲くいろは http://www.hanasakuiroha.jp/
ジャイアント http://www.giant.co.jp/giant12/
シャトル http://www.shuttle-japan.jp/
つまりは、結構な社会的影響を与えたIT事件なわけですが、昔から削除コマンド(rmやdel)にまつわるトラブルは枚挙に暇がありません。この手のトラブルを防止するために、実行予定の削除スクリプトから削除コマンドだけ別のコマンドに置き換えて対象パスのログ出力だけをするようにしたテストスクリプトを流して、予定通りの削除結果になるか調べる方法が一般化していると思ったのですが、まだまだ暗黙知のレベルなのでしょうか。それともファーストサーバにアーキテクトクラスの人材がいなかったのか・・・
ITILのような運用管理の方法論が浸透するのは良いことですが、合わせて本番環境への変更に際して発生したトラブルのLessons&Learntのようなものも世間に広がると、同じ過ちを繰り返さずに済みます。
過去の大規模障害事例集はないものかと調べてみると、色々あるにはあるもんですね。たとえば、金融業界のトラブルなら、日本銀行が以下の資料を公開しています。
(事例からみたコンピュータ・システム・リスク管理の具体策)
http://www.boj.or.jp/research/brp/ron_2007/ron0703a.htm/
ちょっと変わったところだと、経産省が情報システムの開発導入に際したトラブル事例集を公開しています。これは著作権の帰属問題とか、瑕疵担保の問題などを扱ったケース集です。
(情報システムソフトウェア取引トラブル事例集)
http://www.meti.go.jp/policy/it_policy/softseibi/trouble%20cases.pdf
開発時に注意すべきこととして情報処理推進機構(IPA)がまとめているこの文書は、開発SEやPGには是非読んでから仕事をしてほしいですね。
(高信頼化ソフトウェアのための開発手法ガイドブック)
http://www.google.co.jp/url?sa=t&rct=j&q=&esrc=s&source=web&cd=19&ved=0CGQQFjAIOAo&url=http%3A%2F%2Fsec.ipa.go.jp%2Fusers%2Fpublish%2FSEC-TN10-005.pdf&ei=po7oT_mVOuvMmAXs7ZGICw&usg=AFQjCNFhB_AMnPGROCGdG-E-8TWpTf69PA&sig2=Y8tLnivwOc5o7pl2THSQ3w
posted by 吉澤準特 at 01:25
|
Comment(0)
|
TrackBack(0)
|
徒然コメント