サーバー死亡

 11月9日の夜、突然異変が起きました。再起動 →fsck→再起動の無限ループ。ファイルシステムが壊れているようです。元々5→6の移行時前後から、何かしっくりこないものを感じていたのでこの際全てをクリーンインストールすることにしました。幸い、/home以下のデータはdumpで定期的にバックアップを取ってあったのでアプリケーションインストール後にファイルサーバーに溜め込んでおいた部分を書き戻せばいいだけです。

 この際ですのでインストールしたものの結局使わなかったパッケージも大幅に削除。大分身軽になりました。しかし、あわてていたために原因究明にまでは頭が回らず、そこの部分の検証はせずじまいでした。更に、追加でHDを購入。インストール、必要なサーバーの構築、ファイルの書き戻し、yumによるアップデートをかけた状態でHD丸ごとのバックアップを取っておきました。RAIDも、ファイル損傷や操作ミスによる障害には無力です。改めてバックアップの大切さを思い知りました。今回、比較的ダメージが少なかったのはdumpによるバックアップがあったからで、これがなければダメージはかなり大きなものになってたはずです。

 仕事の合間を縫いながら復旧作業を行ったため、作業が完全に終了したのは11日の夜になりました。もう少し作業を効率化できれば、時間も短縮できるはずです。色々と反省点が多かったです。