サーバディスク障害 - 故障時の状況や復旧状況の補足について

2011/02/07

■2011/02/05 [【重要】サーバのディスク障害についてのお詫びとご報告 2011.02.05
【重要】サーバのディスク障害についてのお詫びとご報告 2011.02.05]
■2011/02/06 [サーバディスク障害 - その後の経過・復旧状態について 2011.02.06
サーバディスク障害 - その後の経過・復旧状態について 2011.02.06]
■2011/02/07 [サーバディスク障害 - その後の経過・復旧状態について 2011.02.07
サーバディスク障害 - その後の経過・復旧状態について 2011.02.07]
このまま明日まで様子を見て問題がなければ ひとまず収束 ということになりそうです。
サーバディスク障害 の件、ユーザの皆さまにご迷惑をお掛け致しまして
申し訳ございませんでした。その後、まる1日様子をみてみましたが、
今のところ大きな問題はなく通常運用に入ることができたようです。
 
細かな部分の挙動がおかしな場合は、気になるところを見つけ次第
その都度対処していこうと思っております。

 
今回の障害は HDDトラブル でした。
 
サーバが突然応答不能になり、全くログインできないどころか
動いている気配も無くなったため、仕方なく再起動をしたところ、
ディスクの不整合が酷すぎて セーフモード でしか起動せず、
fsckを走らせて修復しないと先に進めない、という事態になりました。
 

 
ところがこの fsckが全く埒が明かず、実行してみるとinodeのロストが
数百、数千と出てきて目も当てられない状態でした。それでも祈りつつ
最後までやらせてみると、再起動後に「まだ不整合が・・」といって
またfsck以外何もできない状態となり、再実行すると前回と同じくらいの
数のロストが前回と違うnodeで大量に見つかってくる、という、
どう考えても 繰り返せば繰り返すほど悪化している
ようにしか見えない状態になってしまっていました。
そして、この間何回もディスクからは 異音 が聞こえていました。
 
RAID-1(ミラー)はデータを保護するためのものではなく、
故障時に急に止まらないようにするため=可用性を上げる
ための対策でしかない、というのはよく言われることですが、
今回はそれを実体験してしまったことになります。
 
純粋なハードウェアトラブル、たとえばHDDの1基が急に壊れて
アクセス不能になったような場合にはRAID-1が効いて片肺のまま
運用を続けながら壊れたHDDを入れ替えるようなことができます。
以前もそういったことは何度もありました。
 
しかし今回は壊れ方が微妙だったのか、壊れたディスクは部分的に
うまく動いたり動かなかったりで、さらに異常を出したのが片方だけ
ではなかったのかもしれません。OSのジャーナルファイルシステムの
の部分がおかしくなったのか、自己修復しようとしてさらに壊れていく
といういわば ソフトウェアクラッシュ の状態になりました。
 
RAID-1(ミラー)はソフトウェアクラッシュに対しては全く無力である
というのは自明で、たとえば別の例では、ウィルスがファイルを消しまくる
といったパターンは2台のデータを「ちゃんと」消していってしまうため、
そういうケースではRAID-1はデータ保護の役には立ちません。
 
今回のことを通じて改めて感じたのは 静的バックアップの有り難み でした。
 
さて、そんな中で少しでも新しいデータをサルベージしようとしたときに
今回思わぬ大活躍をしたのがコレです。
 

 
Forza3に付いてきた USBメモリ です。(Forza3かどうかはどうでも良いのですが)
クラッシュ状態にあるサーバはそもそもネットワーク接続ができません。
一度止めて片方のHDDだけを新サーバにマウントしてもよかったのですが、
なにぶん壊れ方が片方だけで済んでいるとは思えないような状況でしたので、
とにかく現状を壊さずにそのまま今見えているものだけをそっと抜き出したい、
といったときに、USBメモリをマウントしてコピーしていくというのは
思わぬ突破口になりました。最近のLinuxが UMSに対応 していて本当に助かります。
このメモリのおかげで相当数のファイルや重要な設定がサルベージされました。
 
もう1点、今回の緊急サーバ移行によって昨年暮れから準備していた
Core i7-875K 搭載 の新サーバを予定より遥かに前倒しで使うことに
なったのですが、そのパフォーマンスはやはり目を見張るものがあります。
 

 
前サーバで動いていた機能はほとんど新サーバでも動かし始めたのですが、
CPU負荷だけ見ると 5分の1 くらいになっています。前のサーバを購入したのが
もう4年以上前ですので、歳月に見合った実力ということになるでしょうか。
 
ただ、今までこのサーバにすぐ移行させなかったのには理由があります。
それはサーバ移行という機会が不連続な変化を受け入れるチャンスということで、
これを機に 各種プログラムを書きなおして から移行したい、という
考えがあったからです。中でも文字コードがEUCベースになっている点だけは
どうしても書き換えたかったのですが、残念ながら今回の緊急事態により、
その予定は 全てご破算 になり、既存のプログラムをそのまま移植するだけで
精一杯ということになりました。。。このあたりはこれからまたじっくり
時間を掛けて改造計画を立てなければならないと考えています。いずれにせよ
しばらくは沈静化するのを見守りつつ状況変化に対処していきたいと思います。


2011/02/07 [updated : 2011/02/08 02:54]


この記事を書いたのは・・・。
CK@デジモノに埋もれる日々 @ckom
ブログ「デジモノに埋もれる日々」「アニメレーダー」「コミックダッシュ!」管理人。デジモノ、アニメ、ゲーム等の雑多な情報をツイートします。




« サーバディスク障害 - その後の経過・復旧状態について 2011.02.07

トップに戻る

右京さん、NOB谷口さんを迎え最強布陣で臨む! SuperGT GSR初音ミクBMW 体制発表 »


▼ はてなブックマークのコメント ▼

Donca 2011/02/08
✔ サーバディスク障害 - 故障時の状況や復旧状況の補足について
northlight 2011/02/13
RAID-1(ミラー)はソフトウェアクラッシュに対しては全く無力である
はてなブックマークで
コメントしましょう


2024年のご挨拶


全力Vの1年:2023年振り返り~2023年も大変お世話になりました。2024年も宜しくお願いいたします。


2023年あけましておめでとうございます。デジモノに埋もれる様子をお届けできない日々


"V"にハマった1年:2022年振り返り~2022年も大変お世話になりました。2023年も宜しくお願いいたします。


(状況のご報告)Twitterアカウントの状況について ※2022.11.08追記あり


連投メモ:「ツイートで『ブログ』を書く」お話と、ガジェット系からイベントレポ系に遷移していった時のお話


2022年あけましておめでとうございます。よろず話はカーナビの「ジャイロ」ご乱心のお話


2021年も大変お世話になりました。2022年も宜しくお願いいたします。


2021年あけましておめでとうございます。よろず話はレンタカーと「一脚」テスト。


2020年も大変お世話になりました。2021年も宜しくお願いいたします。


2020年あけましておめでとうございます。今年はちゃんと歯を磨きます。。。


2019年も大変お世話になりました。2020年も宜しくお願いいたします。

ピックアップタグ




ブログ内検索



▼ コメント ▼

No.30361   投稿者 : anonymity   2011年2月 8日 17:35

故障したサーバはハードウェアRAIDでRAID1組んでますか?
もしそうなら,RAIDカードの障害の可能性が高いと思います
意外とHDDは悪くなかったりします……



★コミックダッシュ! 10,000人突破ありがとうキャンペーン!(9/18~10/23)
 
デジモノに埋もれる日々 : (C) CKWorks