またサーバをすっとばす orz

サーバをすっとばして、1日半止めてしまった。

今回はRAID5の1つが、2DE死んでしまったということ。ログを見る限り、縦続けに死んだようだ。「RAIDを安定させるための常識」的なことは、ほとんど実施しているのだが、一時にDEを増やした時のロットの問題やらソフトエラーやらは、なかなか解決が出来ないものだ。

このサーバ、/, /var, /homeのいずれもnfsだし、Xenの仮想化もしているということで、復旧の手順そのものはそう面倒臭いことではない。問題は「2DE飛んだ」ということにある。普通RAID5は2DE飛ぶとおしまいだ。ではどうやって復旧したかと言えば、RAID5は2DE飛ぶと「おしまい」ということで、そこで閉塞してしまう。これを逆に利用した。

今回の飛び方もどうもソフトエラー(ハードとの相性?)っぽいもので、プラッタが壊れたものじゃない(気持ち悪いからDEは予備役に回したが)。だから、一度電源断すれば正常に動いたりする。ところが、RAIDは閉塞されているから、全く動かない。そこで、

最初に死んだDEは捨てて、残りのDEで無理やり再起動する

ことをしてやる。なぜなら、1DE死んだ状態ならRAID5は正常に読める。また、さらに1DE死んだ時にはRAID5は閉塞する。つまり、「エラーである」という情報だけを除いてしまえば、なんとか正常に読めるかも知れないということだ。

と書けば「なーんだ」なのだが、死んでいる時にはあわてているので、最初に死んだDEまで組み込んで再起動してしまった。それを元に復旧したので、一部のファイルは壊れている。それでも全体の1%程度で済んでいるのが不幸中の幸いだった。まぁ全体がデカけりゃデカいだけ、変化する部分は少ないってことだな。

今はちょっと片肺状態の運用になっているので、後でちゃんとした環境に戻してやるつもり。

しかし、なんだかんだ言って、

経験値とはトラブルシュートの数のこと

なのだなぁと、「技術者としての私」は思うわけだな。

「RAID5を無理やり復旧させるノウハウが何の役に立つの?」「それはかけがえのない技術なの?」と「経営者としての私」に問われると、今のところ

Yes

なのだ。なぜそうなのかというのは、いずれまた機会があったら書きたいと思う。

まーそれにしても、ファイルが致命的な状態になり、サーバを再インストールするハメになっても、1日程度で復旧出来たというのは、まだまだやれるなと自己満足してみる。

Google Reader Yahoo Facebook Twitter Digg FriendFeed Delicious Google Translate
This entry was posted on12月 29th, 2007 at 1:41:03. You can follow any responses to this entry through the RSS 2.0. You can Leave a response, or Trackback.

Leave a Reply

(Ctrl+Enter)

XHTML: You can use these tags: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

  • 私について

    ただのプログラマです、ハッカーではありません。

    秋葉で暮し秋葉で仕事してますが、秋葉系は嫌いです。物事を冷静に分析することは好きですが、ニヒリストは嫌いです。

    秋葉でちっこい会社をやってます。 こーゆーことがお仕事です。

    詳しいことは、自己紹介のページでも見て下さい。また、mixiの方でもいろいろわかるかも知れません。twitterは@ogochanですが、たいしたこと言ってません。近頃はShorplug内の別館で日記書いたりもしてます。だいたいここのコピーだったりしますが、ログインするとコメントがつけられます。

    日経ITProに連載(生越昌己のオープンソースGTD)を書いています。「ちゃんと書いた文章」が読みたい人は、そっちを読む方がいいと思います。

  • このページについて

    ここは私の雑文の置き場です。WordPressを使っていますが、いわゆるblogのつもりで書いているわけではありません。「覗き見のできるチラ裏」くらいの意味しかありません。

    もしかしたら有用なことがあるかも知れません。あるいはむかつくことも書いてあるかもしれません。それらはみな「そんなものだ」と思っておくに留めましょう。

    コメントを書くのは構いませんが、「反論」の類はよそでやって下さい。同意する気のない人達と議論する気は全くありませんので、議論したければよそで勝手にやって下さい。

    と言っても、「読むな」「広めるな」というわけでもありません。リンク、ブクマの類は御自由に。

  • カテゴリ

  • 過去の記事

  • メタ情報