障害を予測するには

ディスク障害が起きる前に

ハードディスクの障害発生は、故障の前兆を察知し事前に予測できる場合もあります。

障害を予測するには

ハードディスクのSOSに耳を傾ける

ハードディスクはよく「突然壊れた」といわれます。しかし実際には「ブート(起動)時間が通常より異常に長い」「ガリガリと異音がする」「頻繁にエラーが発生する」など、壊れる前に何らかのメッセージを発信していることが多いのです。
たとえば、ブート時間が通常より長いという場合。この状態はすでにHDDの状態が良好ではないことの合図です。また起動時にSMARTエラーが出たら、そのHDDが寿命を迎える寸前であるということを示しています。またアクセスするたびに「ガリガリ」「カタカタ」といったへんな音がしたら、やはり寿命が近い状態と判断できます。これらの兆候が現れたら、まずは即バックアップをとること。そしてその後の使用は控え、ハードディスク交換などの手を打つ必要があります。
とはいえ、これらの兆候に気付いたとしても時すでに遅かりしであったり、まったく予兆なしにある日突然壊れることもないとはいえません。
そんなとき、もっと早く目に見える形でハードディスク故障の前兆を察知できたら・・・。忍び寄るXデーに備えてより有効かつ速やかな対処ができるはずです。

ハードディスクの障害は予知できる!?

実は、ハードディスクには「S.M.A.R.T.(Self-Monitoring Analysis and Reporting Technology)」と呼ばれる自己診断機能が実装されています。「S.M.A.R.T.」は通常ユーザーの目に触れないようになっていますが、以下のような診断ツールを導入することで常にハードディスクを監視し、その健康状態をチェックすることができます。そして問題を見つけるとユーザーに知らせてくれます。

S.M.A.R.T.の属性値について

S.M.A.R.T.は、「温度」「スピンアップ時間」「RAWリードエラー率」などハードディスクの正常な動作に関する様々な属性値を持っており、それぞれの属性ごとに「現在の値」「しきい値」「ワースト値」が記録されています。その「しきい値」との比較により故障発生の予兆が判断できます。具体的には、パラメータの現在の数値が「しきい値」に近づいたり、「しきい値」より低くなれば要注意ということになります。
数値の悪化がすべて故障に直結するわけではありませんが、ハードディスクの状態を常時見守ることで異変に気づく可能性は高まります。温度上昇など各属性の値が警告レベルになったら、データ消失を回避すべく早急に対策を講じる必要があります。

一般的なS.M.A.R.T. 属性には以下のものがあります。

(属性はハードディスクの販売元や型番により異なります)

Raw Read Error Rate ハードディスクからデータを読み込むときに再試行の発生した割合です。しきい値より低い場合、ハードディスク内の磁気ディスク表面または磁気ヘッドに異常があります。
Spin Up Time ハードディスクが通電してから規定の回転数(通常 5400 〜 7200 rpm)に達するまでにかかった平均時間です。80以上がOKとなります。70〜80の範囲なら良好でしょう。
Start/Stop Count ハードディスクが回転/ 停止した回数です。
(電源のオン・オフ切替、サスペンドのオン・オフ切替の両方がカウントされます)
Reallocated Sectors Count データを予備セクタに移動する処置を施された不良セクタの数です。値が100だった場合、予備セクタに移動されたセクタがないことを表し、値が1だった場合、予備セクタが使い尽くされたことを表します。
Power On Hours Count 工場出荷状態からのハードディスクの通電時間の合計です。この値の減少は平均故障間隔の減少を表し、故障頻度の上昇を意味します。
Spin Retry Count ディスクを規定の速度までスピンアップしようと再試行を試みた回数を表します。
(この値が少ないほど再試行回数が多いことを意味します)
Temperature ハードディスクの温度を表します。
Ultra ATA CRC Error Count UltraDMAモードでのデータ転送中に発生したCRC エラーの回数を表します。
Write Error Count ハードディスクにデータを書き込むときに再試行の発生した割合です。しきい値より低い場合、ハードディスク内の磁気ディスク表面または磁気ヘッドに異常があります。
Recalibration retries ハードディスクのキャリブレーション動作の要求された回数の合計を表します。値が小さいほどキャリブレーションの要求数が多いことを意味します。この場合、ヘッド位置の問題があると考えられます。

ハードディスクは壊れやすいもの、と心得るべし!!

ハードディスクは多くの超精密部品から構成されています。これらの部品は利用時間や利用環境によって徐々に劣化し、ドライブエラーを起こしやすくなります。その後は、エラーの発生頻度が高くなったり、突然正常に動作しなくなったりします。
また、コンピュータの高性能化・高速化にともない、発熱温度も上昇傾向にあります。事実、3GHzで駆動するPentium4プロセッサは約50ワットの電力を消費します。
ハードディスクはコンピュータ内部で一番仕事をしているため、稼働時間の超過にともない故障しやすい部品といえます。プロセッサ、ビデオカード、電源等のハードウェアはすべて、ケース内部に冷却装置を備えています。しかし、ハードディスクはそのような冷却装置を備えていません。このこともまたハードディスクが故障しやすい原因となっています。10℃の温度上昇がオーバーヒートによる故障率を倍増させます。

コラム-関連記事

ITPro
「ハードディスク・ドライブの故障率に関する事実 」

インターネットコム、goo リサーチ「HDD 内蔵機器の故障に関する調査」
HDD搭載パソコン所有者の4割弱がHDD故障を経験、SSDは2割弱が経験