« サーバのファンを稼動させました | メイン | シマノ・バイカーズ・フェスティバル2007 »
2007年07月20日
SMARTからerrorメールがきてます
Device: /dev/hda, 2 Currently unreadable (pending) sectors
Device: /dev/hda, 2 Offline uncorrectable sectors
上記の内容のエラーメールがきとります。昨日は対処方法を色々調べまくっていました。
Currently unreadable (pending) sectorsやOffline uncorrectable sectorsは、即交換レベルのエラーとからしいですが、そりゃー交換した方がいいに決まっていますが、不良セクタがあるからといって壊れるかもしんなし、壊れないかもしれないし。250Gもあるんだったら、2セクタぐらい壊れるでしょ?とか思ったり。
えーと、まあ、つまり、ずぼらなんですが、そのまま続行。壊れたら、その時はその時で対処しようかと。
もちろん重要なデータ・設定ファイルなどはバックアップしてありますよ。
1つ気になるのが構成として
/ /dev/hda
/var mb0(RAID5)
となっていて、「/dev/hdaが壊れてもRAIDのデータは生きているよな?どーすっかなー?」と。
/dev/hdaをコピーしとけば問題解決?あとで調べなければ。
さて昨日、サーバのすべてのファンを稼動させてみたら今日のメールは
Device: /dev/hda, 2 Offline uncorrectable sectors
だけとなっていたので「改善したー?」とちょっと喜んでおりました。
そういえばセルフテストしてなくて「それやったら問題ないかも?(問題あってもディスク交換しませんが)」と思いましたが、read failure(読み出しエラー)となってしまいました。
しかも
# smartctl -A /dev/hda
とコマンド打ってみたらCurrent_Pending_SectorとOffline_Uncorrectableが変わらず2セクタ示してました。つまり全然変わってない。とほほ。
しかしメールが毎回くるのもなんだな?と思ってさらに調べていると不良セクタの解消と対処法が詳しく載っているところがありました。これだよ、探してたの。
ちょっと試した感じ、ディスクの端っこあたりに不良ブロックがあるみたいです。250Gのうち10Gも使ってないので「全然影響ないんじゃ?」と思っています。
071029追記--
上記リンク先を試した当時、Offline_Uncorrectableが消えなかったのですが、そういえばそれからSMARTからerrorメールが来なくなりました。
そしていつの間にかOffline_Uncorrectableも消えていました。
今年の夏は暑かったです。夏場の温度や低電圧など、logから分かりづらい原因もあるような気がします。
それら対策し、上記手順を取ってしばらく様子を見る。不安ならバックアップをしっかり取る。
それでもどうしようもなさそうだったらHDD交換する、といった運用にしたいと思います。
投稿者 verju : 2007年07月20日 23:55
トラックバック
このエントリーのトラックバックURL:
http://verju.dip.jp/cgi-bin/mt/verju-mt-tb.cgi/901
コメント
https://www.smartmontools.org/wiki/BadBlockHowto
Bad block HOWTO for smartmontools
smartctl -t offline /dev/sda
smartctl -t long /dev/sda
で何度やってもきえなかった Offline_Uncorrectable が、
smartctl -t offline /dev/sda
で、消えました。
こちらのサイトがきっかけになって、たどり着けたことなので、コメントを残します。
投稿者 通りすがり : 2020年08月15日 03:50