nfsの例の問題でまたアクセスがおかしくなったので、ファイルサーバを再起動した。
そうしたら、またもRAIDの構成でコケる。今回は何があったのか。
dmesgを見ると、RAIDを構成しているディスクのパーティション情報が読めないという意味のエラー。起動してから当該ディスクをfdiskしてみたら、確かにパーティション情報がないベアな状態になっていた。
RAIDを構成させる時に何もパーティションテーブルはいらないのだが、ディスクを一杯に使うと、同じ容量のディスクが入手出来なかった時に組み入れが出来なくなってしまう。だから、「ディスクの表記容量でパーティションを切る」ということをする。そうしておけば、ディスクの容量が違っても問題が起きない。「余分な領域」がゴミとなってしまうけれど、今時はディスクも安いものなので、交換の時に確実に使えるようにした方がいい。
というわけで、RAID構成用のディスクと言えど、パーティションを切ってある。これが読めなかったわけだ。しかも、例によって2本。
/var/log/kern.logを見ても、特に異常らしいものは検出されていなかった。つまり、物理的に何かが壊れたのではなさそうだ。そこで何を考えたかと言えば、
もう一度パーティションを切る
ことにした。そうすればパーティションが読めないということは解消するはずだ。万一MBRが壊れていればパーティションは切れないが、その時はその時で諦めるしかない。
ということで、1本だけパーティションを切り直してraidzapで見てやると、普通にRAID super blockは読めた。なので、2本とも切り直しをして、再構成させた。
# mdadm -A /dev/md0 /dev/sd[abcde]1
とやると、何事もなかったかのように再起動したので、念のためバックアップを取ってサーバを再起動。これも問題なく完了。まー、こんな時はあわてないで対処すること。
しかし、しょうもない復旧スキルばかり上げているような気がする…