東北関東大震災が3月11日に発生してから、初めての週明け。被災地では想像以上の悲しみや疲れが広がっているものと察し、心からお見舞い申し上げます。
一方で、被災地から離れてはいるものの、関東地方に住んでいる人々のなかには、ITシステムのBCP対応に追われている人もいることでしょう。今回のエントリーでは、そんな方に向けて、Public Keyの新野編集長、ユニアデックス高橋優亮さんらが有志の方々と協力してまとめたノウハウを紹介します。
作成者の好意により、どなたにでも活用していただけるようにGNU Free Documentation License (GFDL)(日本語での解説)となっています。自由に複製、改変、頒布などが可能です。オリジナルのテキストファイルはここからダウンロード可能です。
本文書が多くのITシステム復旧に携わる方々の目に触れるよう転載させていただくことをご了承ください。
「災害にあったITシステムを操作しなければならない人が知るべきこと v0.2」
1.目的
本文書は、震災などの災害発生後に、ITシステムのユーザがシステムの復旧や再起動を検討する場合にチェックするべきことを記しています。
被災したサーバを、再起動するのは本質的に危険なことです。場合によっては人命に関わる二次災害を招いたり、存在したかもしれない障害からの復旧可能性を失う可能性が高いものです。サポートサービスのプロフェッショナルの支援を受けることは必須だと考えてください。
しかしながら、プロフェッショナルの支援を待てずに起動することが要請されるシステムも存在することと思います。そうした状況下で、可能な限り二次災害のリスクを小さくしたり、あるいは「拙速な復旧を断念する」という勇気ある決断をするための助けとなるように本文書は作成されました。
2.この文書の限界と、責任
この文書の初版は、高橋優亮を中心とした有志が作成した文書です。高橋優亮や有志の所属する団体等の公式な見解を示すものではありません。
被災環境におけるITシステムの操作や起動は、火災などの人命に関わる二次災害を引き起こす可能性があります。
被災環境におけるITシステムの操作や起動は、もしかしたら存在したかもしれない、障害からの回復可能性を失うなど、様々なリスクがあります。
一般にユーザによる災害復旧操作は、状況を悪化させることの方が多いものです。この文書はユーザによる自力復旧を推奨するものではありません。むしろ、自力復旧しないことを強く推奨しています。
本アドバイスに従ったとしても、リスクを完全に回避することはできません。可能な限り、サポートサービスのプロフェッショナルにサービスを要請してください。
サポートサービスのプロフェッショナルであっても、リスクを0にすることができません。プロフェッショナル以外の人が作業することはリスクを高める行為であると理解してください。
色々な事情でプロフェッショナルのいない現場でシステム復旧を試みなければならない人たちの支援情報となるように作成された文書ですが、復旧対応は、元来個別のITシステムとその状態毎に対応方針を決定すべきものです。一般論を記載していますが、読者の個別のITシステム環境に合致しなかった場合、皆様のITシステムに取り返しの付かない悪影響や人命に関わる二次災害を引き起こす可能性もあります。
この文書には間違いがなくなるよう努力をしていますが、間違いがないことを保障するものではありません。
この文書を読んだり、書いてあることを実行したりすることによって引き起こされた一切の問題について、この文書の著述に関わった個人や法人、あるいは配布や蓄積、交換にに関わった全ての個人や法人は免責されるものとします。
なにが起こっても誰も一切の責任を負いません。恐縮ではありますが自己責任でのご判断をお願いいたします。繰り返しますが、この文書の内容は「無保証」で読者に提供されています。
3.著作権と再配布
本文書は、GNU Free Documentation License (GFDL)バージョン1.3か、それ以降の任意のバージョンに基づいて、自由に改変と再配布が可能です。ただし、2節の「この文書の限界と、責任」の内容については、その意図を変更するような改変を禁止します。これはGFDLにおいても認められています。
4.著者と謝辞
改変履歴
v0.2 2011.03.13 高橋優亮
v0.2の謝辞
この文書は、2011.03.11に発生した「東北地方太平洋沖地震」の被災者に対して、IT技術者ができることをはないかと、ブログメディア Publickey(http://www.publickey.jp/)編集長の新野淳一氏の示唆に基づき作成されたものです。氏のアイディアがなければ存在しなかった文書です。氏には深く感謝を申し上げます。
v0.21 2011.03.14 新野淳一(本ページ。Webページ化に伴う体裁の変更など)
5.災害にあったITシステムを操作しなければならない人が知るべきこと
特に重要な項目については【重要】の見出しをつけています。
5.1 全てのシステムについて
全てに共通する基本
【重要】自分で復旧しないでください!
被災システムの操作はプロフェッショナルに依頼してください。一般の人が操作すると、多くの場合状況が悪化し、回復不能になるケースが増えます。たとえば衝撃を受けてヘッドクラッシュを起こしたハードディスク装置は、電源投入して回転させると破損が拡大し、データ復旧も難しくなります。
他にも、細かいちりと水分などの影響でショートが発生し機器から火災が発生することもあります。炎上し焼け落ちたシステムの復旧はほとんど不可能です。
目的
そのシステムは本当に「今」復旧することが必要ですか?
「念のため」や「心配だから」または「可能なら」という状況ならば、プロの到着を待ってください。あなたがさわることで、状況が悪化します。二次災害で人命が失われるかも知れないリスクがありえる、という状況の元、本当に「今」復旧することが必要か判断してください。
5.2 サーバシステム(サーバルームやデータセンタのラックシステム)
意義
そのITシステムを利用するユーザや外部システムの復旧予定を知っていますか?
あなたのサーバだけ先に復旧しても、たとえばユーザや外部システムの復旧が数週間先というような状況下だったらどうでしょう?プロを待たずに「今」復旧する必要がありますか?
事前の装備確認
【重要】静電気を放電できるような対策がされた安全靴や、静電気を発生しにくい衣料はありますか?
平常時と異なり、現場にはガスや可燃性の粉塵などが存在する場合があり、静電気が爆発事故の原因になる場合すらあります。最低限、静電気対策ができないなら、復旧に向かうべきではありません。
安全靴、ヘルメット、防護手袋、防塵ゴーグル、懐中電灯、工具などの準備はありますか?
装備が足りなければ、それだけ危険が増します。どれだけ備えても危険は0になりませんが、可能な限り装備を整えてください。
【重要】通信路の確保
被災環境では、通信路の確保は難しいかも知れませんが、可能な限り、外部と連絡がとれるように準備してください。Twitterやmixiだけでも使えれば大違いです。
【重要】同行者の確保
単独行動は避けて、複数名で現場に入ってください。状況を見張る担当と復旧作業を行う担当と、作業を分担して、常に安全を確保するよう努めてください。
通常作業に必要な装備
被災状況であろうがなかろうが、たとえばネットワーク機器やストレージ機器のコマンドラインインターフェースを操作するのに使うノートPCやシリアルや Ethernetのケーブル、各種ジェンダーチェンジャー、データ吸い上げに使用する、予備のストレージ機器などを準備します。これらがないと、結局手も足も出ず、徒労に終わると言う結果になりがちです。
ラックに近づく前に確認すべきこと
【重要】サーバルームやデータセンタの建屋の安全性に問題はありませんか?
【重要】サーバルームやデータセンタに漏電などによる火災のリスクはありませんか?
【重要】天井、床、壁などに、大きな損害や亀裂ははありませんか?
家屋や建屋の危険度の判定については、行政や専門家の指示に従ってください。立入や接近が禁止された場所での作業は論外です。たとえ禁止されていなくとも、建屋や設置場所が危険と思われる場合は、安全を優先して、起動は諦めてください。たとえあなたの命を賭して再起動しても、建屋が壊れたらシステムも一緒に粉々です。
【重要】サーバルームからの緊急退避路を常に意識して行動してください
余震や類焼などで、それまで比較的安全だったところが、急激に危険になる場合があります。常に退避路を2方向以上確認し、常に意識してください。退避路が1方向しかないと想定される場所には最初から入ってはいけません。設置場所が危険な場合は、安全確保を優先して復旧は諦めてください
【重要】あなたは、夢中になると周囲が見えなくなるタイプではありませんか?
どんなに作業に集中していても、状況が変われば、即座に退避する必要があるのが被災地です。ユーザが自社のシステムを復旧しようとすると思い入れが強すぎて、周囲が見えなくなるリスクが高まります。複数名での作業を重ねて推奨します。
空調は機器の動作を保てるレベルで動作していますか?
システムが復旧しても、サーバルームの密度や空調の程度によっては、しばらくすると熱がこもって、熱暴走や故障が発生するような状態になるかもしれません。
適切な空調が得られなければ、長時間システムを動作させることはできません。データのバックアップ採取のみにするなどプランの変更を検討してください。
そもそも電気は来てますか?
電源供給がされていない場所で復旧を検討することはナンセンスです。電源回復を待ってください。
【重要】漏水はありませんか?
周囲を見渡して漏水の可能性を確認してください。漏水があれば漏電のリスクがあります。電源投入をしてはいけません。安全に作業できるようなら、電源ケーブルを外したり、主幹ブレーカーを落とし、火災予防することも検討してください。
【重要】異臭はありませんか?
都市ガスやプロパンガスには特有のにおいがつけてあります。これらのガスには毒性はありませんが、爆発のリスクがあります。即座に、静電気火花を起こさないように細心の注意を払って撤収してください。都市ガスやプロパンガスの以外でも、異臭は、有毒ガスの発生や、火災の前兆を示す場合があります。安全かつ迅速に撤収をしてください。
ラックの前に立ったら
【重要】ラックに変形はありませんか?
変形の程度にもよりますが、ラックが変形するほど大きな衝撃を受けたシステムは火災を引き起こすなどの可能性が高く、起動は危険です。電源ケーブルを抜いて、ブレーカーを落としプロフェッショナルの到着を待ってください。
【重要】切断された電源ケーブルなど、危険なものはありませんか?
感電や傷害のリスクを排除できない場合はシステム起動をしてはいけません。特に直流送電のデータセンタでの感電は致命的な結果になります。「直流送電」と言われて意味の分からない人は、データセンタの復旧に向かうべきではありません。
【重要】現場が粉塵でもうもうとしていたりしませんか?
粉塵爆発のリスクがあります。建材の多くは不燃物ですが、現場で粉塵が可燃物か不燃物かを判定することは不可能です。静電気に注意して、即座に撤退してください。
ラック自身の固定に問題はありませんか?
ラックの固定が外れて、建物に安全に固定することができないような場合、折角システム復旧しても、余震などがあればより状況が悪化する恐れがあります。システム起動より、ラックの固定を優先してください。
LANやファイバーチャネルのケーブルが伸びてしまっていませんか?
阪神淡路大震災の時、多くのシステムがラックが動いてしまうことにより、ケーブルが伸びたり、内部で断線することで通信不良が発生しました。ケーブルが伸びてしまっている場合、無理に復旧しようとせず、予備が確保できてから作業するのが望ましいでしょう。
電源を入れる前に
【重要】筐体に大きな衝撃を受けた跡などはありませんか?
衝撃を受けたことが明らかな場合、まずハードディスクの障害を疑います。故障したハードディスクに電源を投入するとデータ復旧が困難〜不可能になる可能性が高まります。起動しないことをお勧めします。
【重要】筐体内部に粉塵や液体の侵入の形跡はありませんか?
空気中に粉塵がなくとも、機器が粉塵にまみれている場合は、内部配線でトラッキング漏電が発生する恐れがあります。また現在乾燥していても、一度でも濡れたり水没した痕跡のある機器をそのまま電源投入してはいけません。乾燥しても水に溶けていたものが結晶化して導電性の皮膜ができてショートすることがあります。
いずれの場合でも、可能ならば電源ケーブルを抜いてブレーカーを落としておきましょう。
【重要】電源ケーブルやコンセントやプラグに損傷はありませんか?
変形して中途半端にしか刺さらないようなプラグや、強い衝撃を受けて、内部のより線の一部が断線したようなケーブルを使ったりすると、発熱して火災になることがあります。訓練を受けていない一般の人が「ケーブル内部のより線の一部断線」などを判定することは難しいので、ダメージを受けていると思われる場合は電源を入れてはいけません。
機器のラックへの固定は緩んでいませんか?
機器が正しくラックに固定されているか、固定状態を確認してください。緩んでいるようなら、きっちりと固定してください。固定が不十分な状態では、起動後に障害が拡大する可能性が高まります。
【重要】電源投入手順や、起動時の障害確認手順を理解していますか?
システムの起動手順を理解しないまま「電源入れればなんとかなるだろう」と起動すると、大抵望ましくない結果になります。また、起動シーケンスに障害が発生した場合に、対処できるスキルがない場合や、正常に起動したかどうかの判定を行うことができないようなシステムは、最初から起動してはいけません。
【重要】システムの停止手順を理解していますか?
復旧を断念して、システムを停止する場合に、正しい手順を理解していますか?OS以外にもミドルウェアやサービスやデーモンやアプリケーションに対しても、正規のシャットダウン手続きが必要な場合があります。止め方の分からないシステムは起動してはいけません。
【重要】電源投入順序
システム構成によって、正しい手順は異なりますが、多くのケースに該当しそうな手順を紹介します。
0.計画停電が想定される地域では、作業中に停電時間帯に突入しないよう余裕を持って計画を立ててください。
1.電源供給の確認をします
UPS装置がある場合はUPS装置を調べ、UPSやUPSのバッテリーが正常に起動しているかを確認します。 電源供給コネクタ類を一通りテスターであたり、電圧異常などがないかを確認します。電圧異常があったら電源ケーブルを抜いて、起動は諦めてください。
2.まず外部につながるネットワーク機器から
サーバシステムは、ネットワークにつながらないと役に立ちません。ネットワークが障害を起こしているようなら、システム復旧の意義は薄れます。外部に近いほうから順次確認していきます。たとえば、ONU→ボーダールーター→Firewall→DMZ用スイッチ、といった順です。 ネットワーク機器から電源投入するのは、ハードディスクなどの衝撃に弱い部品を使っているケースが少ないため、最初に電源を投入する機器として適切だからです。
しかし、ロードバランサー、ファイヤウォール、L4〜L7スイッチ、SSLアクセラレータといった製品の中にはハードディスク内蔵の機器もあります。このような機器は、他のネットワーク機器の正常起動確認の後にします。
ネットワーク機器が起動したら、外部との接続性を検証します。正常動作する持ち込んだノートPCなどから、pingや tracert(traceroute)、Wiresharkなどを用いて必要なシステムとの接続ができるか、実用的な通信は可能かなどの確認を行います。ネットワーク接続が確立できなければ、データやシステムのバックアップ作業などへプラン変更を検討します。
3.裏LAN用スイッチや、FCストレージ用のスイッチの電源を投入し動作を確認します
4.【重要】ストレージ装置の電源を入れるかどうか考える
ハードディスクの故障は、外観からは分かるとは限りません。多くの場合、クラッシュしていても外観には何の変化もありません。しかし、クラッシュしている状態で電源を入れると、データ復旧の難易度は一気に上がり、取り返しがつきません。データのバックアップが不十分なシステムの場合、この電源投入が運命の分かれ道になる可能性があります。
本当に今電源を入れる必要があるか、今一度ここで考えてください。電源を入れずプロと相談することを、改めて強くお勧めします。
5.決断できたら、ストレージ装置の電源を入れます
注意深く起動音や、ステータスランプを観察してください。異常が見られたら即座に電源を切って、これ以上の作業を諦めて、撤収します。データ復旧サービスを提供している企業と相談してください。
6.最後にサーバ機器の電源を投入します
いきなり起動してよいかどうかは、システム構成によります。必要なら、セーフモードで起動したり、シングルユーザモードや、ROMモニタなどで診断を実行するなど、システムの健全性を確認してください。
また、複数サーバで構成されるシステムでは、サーバ間の起動順序が問題になる場合もあります。たとえば、認証サーバ→アプリケーションサーバ→Webサーバのようなケースや、ある種のクラスタ構成の場合、本番系を全て起動してから、など、サーバ間の起動手順が決まっている場合があります。電源投入順が不明な場合もシステムを起動してはいけません。
無事に稼動/起動していると思っても
異臭や異音はしませんか? 少なくとも30分。できれば数時間以上、状況を注視してください。燃えてからでは手遅れです。
データバックアップやシステムバックアップは無事に存在しますか? してなかった方は、可能ならここで採取しておきます。必要なら本番起動前にシングルユーザモードや/セーフモードで新しいメディアにデータバックアップをしてください。本番稼動前に、各種ログファイルなどを調べ、必要な復旧処理をしましょう
小康状態になっても、運用中に気をつけるべきこと
大きな余震や津波が再び発生した場合のプランはできていますか?
ここまでたどり着いた方は運良く運用可能状態になりました。おめでとうございます。しかし、もう一度システムがダメージを受けた場合、再起不能になるかもしれません。その時にどうするかを計画しておきます。
たとえば、小康状態の間に、バックアップをしっかりとっておいて、小康状態の間はトランザクションやデータベースの更新を禁止し、参照系だけにして、再度の障害に備える、などの方針を決めます。
【重要】突然の停電が再び、何度も起こりえます。
計画停電だけでなく、被災地の電源供給は不安定になりがちです。突然の電源断があった場合にも耐えられる運用プランを検討してください。
UPSのバッテリ残量の確認や、シャットダウン指示が正常に動作するかのテストも実施してください。 運用を継続する場合でも、計画停止があれば何度もシャットダウンが必要になります。シャットダウンを繰り返すことはしばしば障害の原因になります。
データの吸い上げができたら、不要不急のシステムは休止することを基本としてください。 バックアップを活用して、IaaS事業者のサーバで仮復旧するなどの対策も有効です。是非移行を検討ください。
途中で退避するときは
【重要】復旧を断念するなどで、退避する時は、機器の電源をOFFに 安全に退避できる時は、機器の電源をOFFにしたり、電源ケーブルを抜いたり、主幹ブレーカーを落としたりするようにしてください。
また、電源供給が不安定な時はサージやスパイクと呼ばれる異常高電圧が発生しやすく、機器故障や火災の原因になります。また漏電が発生した場合の事故を防ぐためにも、なるべく電源を広範に落としてください。
【重要】ただし、可燃性ガスなどの存在が疑われる時は、これらの操作で起こる電気火花が引火の原因になる可能性がありますので、なにもせずに速やかに撤収してください。
5.3 クライアントシステム(デスクトップやノートPC)について
全般
現場に入るまでの危機管理などは「5.2サーバシステム」編と共通しています。安全を確保して作業してください。
ローカルハードディスクの内容
クライアントシステムでは多くの場合、復旧すべきものは、ローカルハードディスクの内容に限られます。データを救い出すことを中心に検討します。
ノートPC
軽量なノートPCは、現場から本体ごと回収して、安全な場所に運んでから、順に動作確認やデータの取り出しを行いましょう。ユーザの所在が不明でログインのパスワードが不明な場合は、それぞれのOSごとに回復手順があります。ただし、HDD暗号化を実行していると、データの回復が不能の場合もあります。
デスクトップPC
本体ごと安全な場所に運べる場合はノートPCと同様にしてください。 ハードディスクの暗号化をしていない場合なら、本体のサイズや筐体の構造と現場の安全環境と、作業者のPC分解スキルと相談しながら、筐体をあけてハードディスクユニットだけ取り外した方が、安全かつ大量に短時間に運び出せる場合があります。その場合、ハードディスク本体に、どのPCから取り外したのか書いておくと、後のデータ吸い上げ時に役立ちます。
5.4 and more... to be written