ハードディスクのトラブル、原因追究に苦戦した

このブログは gooブログ
>なが~ンのごちゃごちゃ 、そして長~く続く出口のないジャンクなパラダイス??
https://blog.goo.ne.jp/nagan_k
から引っ越してきました。
旧ブログは 2025年11月18日まで ご覧いただけます。それ以降はgooブログ自体がなくなる段取りらしいです。
でもね、旧ブログはこっちへのジャンプ先が書いてあるだけなので....。(引っ越しましたって引越し先個々のURLリンクだけ)
さてさて、今までお世話になったgooブログへの最後の挨拶をば
さようならgooブログ。今までありがとうございました。

引越先の当ブログですが.... 引越自体は終えてます。(2025年10月08日00:45現在)
でもね、デコレーションがまだまだでしょ。飾りつけといったことはポチポチとしていきます。
そうそう。gooブログからの引越データとしては、記事数2756件、画像20833枚でした。
***** 以降に記事本文が続きます。読んでね!! *****


ちょっとだけ、パソコン業界よりのネタになります。

あまり、本業のネタは書かないようにしているつもりなのですが、今回はちょっと大変だったので書いときます。

 

 

今週の8月28日水曜日に、いつもどおりの作業をしていたら、お仕事パソコンの挙動が変なことに気がついた。

具体的には、文字入力をしている時に、漢字変換で次候補等を選んでいる時に、「うっ」「くっ」という感じでレスポンスが遅くなったのだ。

カチャカチャと、パラパラとキーボードをタッチしている時に、変換候補確認中に、「びとっ」と黙り込むようになった。

これが凄いストレスなのだ。作文はサクサクとさせてほしい。なんなんだよー。

そうそうしているうちに、インターネットで調べもの中に、突然黙り込むことも出てきた。

突然の症状なので絶対にパソコンになにか不具合がでているはずです。

ちなみに私のお仕事メインのパソコンはWinXP-PRO君です。もう間もなく引退の予定ですが、次のOSを導入するまであと数か月は頑張ってもらいます。

とりあえずWindowsXP君のイベントログを確認します。

こういう時は何かログが残されているはずです。

うっひゃー、赤いマークがありまんがな。

なにー「megaraid」がエラーだしている。

megaraidとは、RAIDシステムを管理しているものとお考えください。

RAIDとは何?については、ハードディスクが壊れてもすぐにシステムダウンしないようにハードディスクを数台組み合わせているものと絵考えください。詳しくはインターネットでお調べください。

内容を要約すると、

1台のハードディスクにトラブルが発生し、システムより切り離しした。

ついては、システム的に不安定になるのでトラブル発生したハードディスクを交換しろ。

というもの。もちろん英語で記されています。

これは期待された動作なのでいいのだ。この程度でパソコンが挙動不審になるはずがない。

この状態に、8月16日ごろからなっていた模様。

何故に私が気付かなかったかというと、パソコン再起動の時には勝手に復旧していたらしい。

この勝手に復旧というのが、パソコン挙動不審のトラブル起因なのだ。

本当ならエラーで起動時に止まるはずなのに起動時にはエラーがなくなっているということ。

つまりハードディスクとしてはトラブルがあると判断しているのに、何故か起動しなおすとハードディスクが健康体として認識され、RAID機能は故障と判断したハードディスクを健康体のハードディスクへ交換されたものと解釈して、自動復旧プロセスに移行してRAID修復(リビルド)開始するということ。

でも、リビルドで自動復旧中に、やっぱりトラブルが発生して、そのハードディスクを再度切り離す。これを繰り返していた模様。

でもね、それだと、そのハードディスクを切り捨てた時に、レスポンスの不具合があるだけで、特に以降のオペレーション動作がおかしくなるとは考えにくいのよねー。

と、ここまで気づくのに、約一時間。

ともかく、RAID君が不良とのたまっているハードディスク君を、予備のハードディスクと交換してみる。何事もなければ、これで自動復旧して解決のはずなのだが…..

パソコン起動しなおして、なにごともなく自動復旧(リビルド)開始。

その間も普通にパソコンは操作できるので、何事もなく日時的作業をしていると…..

突然パソコンの挙動がおかしくなった。

なぜ、ハードディスクを物理的に交換したぞ。と思いつつ、イベントログを確認すると、最初と同じエラーがでている。

えーっ。今突っ込んだハードディスクがいきなり不良なのかー?

ともかく、不平を言っても仕方がないので、さらに別のハードディスクと交換してみる。

また同じ症状。さて、もう一台と….

都合3台のハードディスクを入れてみた。そうしたら、全てパソコン起動時は正常に起動して自動復旧になるが、途中で不良と判断される。

ということで、今度はRAIDカードを疑いはじめた。

その切り分け判断で、本当に壊れているディスクを入れたらどうなるか確認した。

以前に壊れて、「ウイーン、カチンカチン」という異音がする本当に物理的に壊れているディスクを入れてみた。

すると起動時に警告が出た―。ディスクが1台死んでいるから交換しろ。または、そのままディスクを切り離して運用していいか。といった確認メッセージ。

そうそう、ディスクが壊れたらパソコン起動時にこのメッセージがでないといけないのよ。

ということで、RAIDカードはまずいいだろうと判断した。

つまり、RAIDカードはOK、HDDもOKなのに、何故かRAIDが故障と判断する、へんちくりんな不具合が発生している。それもハード的に不具合と勘違いされる。

こういうのは調査するのが長丁場と考えた。

まずは、現状パソコンが動いている状態で、ちょっと早いが月末にしなければならない処理をしておく、具体的には月末の支払処理や請求処理など….

そして、現状のハードディスクをバックアップする。

このバックアップが時間かかるのだ。ノートンゴーストというソフトで、物理的に別のハードディスクにバックアップする。

具体的には、パソコンにSCSIカードをもう一枚さして、そのカードにSCSIハードディスクを一台付けて、そちらにバックアップ。(DVDにバックアップしていたら、メディア入れ替えが大変なのでDVDへのバックアップはしない。外付けUSBハードディスクへのバックアップはUSBのスピードがネックなのでそれもしない)

このバックアップに5時間ほどの作業がかかりました。データー圧縮に時間がかかったのか仕方ないでせう。

さらに、念のため、このバックアップしたデータが入ったハードディスクを、まるまる別のハードディスクにクローンです。クローンはバックアップではなく単なるコピーなので早い。

それでも1時間ほどかかりました。

これで、バックアップを取ったハードディスクが2個作成できました。

念のため、そのバックアップから、別のハードディスクに復元をかけて、データが戻ることも確認しました。

よっしゃー、これでバックアップが確実に作れたぞー。

後は、データーを壊してもいい覚悟でパソコンをいじれるぞー。

ここまでで、29日の午前4時です。

もうこのまま徹夜で作業続けます。

まずはRAIDシステムのハードディスクを全部取り出してみました。

そして、ハードディスクの設置位置を物理的に入れ替えてみて、システムを復元です。

バックアップからシステムを復元するのは、80分程度でした。

その状態で、WinXP君を操作してみます。仕事のことをするわけにいかないので、ネットに繋いで、動画の再生をしたり、ついでにヤフオクで欲しい物がないか物色等をして、ハードディスクの挙動を伺います。

すると、30分ぐらいしたら、RAIDシステムに不具合発生しました。

ふむふむ、その内容を再度確認です。

RAIDシステムのエラーには、どのハードディスクが不良と判断して切り離したのか明確にされます。

具体的には、チャンネル1の3番目のハードディスクといった感じに….

その番号を記録して、物理的にどの個体のハードディスクなのかを確認します。

さて、またRAIDシステムのハードディスクを全部取り出して、ハードディスクの設置位置を物理的に入れ替えてみて、システムを復元です。

そして、同じようにエラーです。

今度は、ハードディスクの位置はそのままで、ハードディスクのSCSI-IDを変えてみて、RAIDを構築してテストします。そして同じようにエラー。

ここまでして、大分判明しました。

パソコンのハードディスクを設置している場所で、この部分に設置したハードディスクを不良と判断するようです。

それって、ケース内の熱がこもってHDDが挙動不審になるのでは?というのが、一般的な考えでしょ。

まぁー、それの可能性もあると思うのですが、私はそんなものではないと考えます。

今までの私の経験では、熱害を受けたハードディスクは大抵は物理障害を受けているため、また不具合を出します。つまり、熱害を受けたハードディスクを物理的に別の位置に固定して運用した時でもすでに熱害でやられたハードディスクは不良のはずなんです。今回はその動作はないのです。

では?と、SCSIのフラットケーブルの取り回しを変えてみます。

具体的には、パソコン筐体からバードディスクを取り出して、筐体の外に出した状態でケーブルを繋いで動作させるのです。

これはSCSIケーブルになにか障害が発生しているかの切り分け作業です。

「えーっ。動作していたケーブルに不具合なんて出るのか?」と大抵の方は考えられますが、私の仕事で得た経験則では、ハードディスクの振動等でケーブルのコネクターに不具合が出ることは割と多くあります。サーバーの管理をしていたら、割と出くわす障害で有名なやつです。

それて、ハードディスクを入れ替えて、システム復元確認してWinXPを操作してみること数回。

多分、これだろうと断定しました。

SCSケーブルの、先っちょから数えて3番目のハードディスクコネクタに接続したHDDが必ずエラーを出すのです。

つまり、ケーブル不良です。ここまでで8月29日の夕方6時です。つまり8月29日は一日ハードディスクの復元と障害確認に明け暮れました。

さて、U320のSCSIプラットケーブルの予備あるか確認です。

うーん、U160なら手元にあるのたけどなー。

事務所にケーブルの予備が無いことを確認したのが深夜11時です。

で、今度は倉庫に行って、現役引退させたサーバ達のところへ。

深夜に倉庫をゴソゴソです。退役軍隊と化した老いぼれサーバーから所持品を巻き上げる作戦です。

深夜に倉庫で作業していたので、警ら中の警官に声かけられました。

「おまわりさん。ご苦労さまです。」と話しながら、職質です。

まぁー、やましいことをしていないのですが、どうも徹夜で私の顔色が悪いのと時間が時間なので職質したとのこと。

「昨日も徹夜で作業しているねん。だから顔色悪いねん。あるケーブルが欲しくて、それを探すために部品取りでキープしているサーバ機を分解しているねん。」と説明して、倉庫の鍵を警官の前で物理的に施錠してみせて、私が倉庫の主だと認めてくれました。

警らしてくれるのはいいことなので、ありがたいことです。

それに、作業している人の顔色や服装もしっかり確認しているところは、さすが警察官ということか?でも警察官の対応に1時間ほど時間消費しました。それだけ私が不審者に見えたのでしょうねー。

さて、倉庫で2本のケーブルを退役軍隊サーバーから略奪して事務所に戻りました。

このタイミングで、8月30日の朝7時ごろ。結局2日連続の徹夜です。

さて、そのケーブルに交換してみたところ…..

システムを復元して動作確認です。

なにごともなく動作します。1時間ほど動画再生にインターネットで調べものしても安定動作しています。

ふーん。ケーブルかなー。と確信していきます。このタイミングで8月30日の午前10時です。

念のために再確認ということで、以前のケーブルに交換して再度動作確認しました。

すると不具合発生して、不良と判断されたハードディスクは問題のコネクターに繋がっているものです。

間違いなくケーブルの不良ですね。

ここで、8月30日の午後1時ごろです。

この後は、ちょっと銀行へ行ったりして時間経過です。

さて、犯人を見つけたので、パソコン筐体に組戻しなのですが、内部がホコリなので掃除です。

そして組み付けしてシステムを綺麗に復元したのが8月30日の深夜でした。

復元してWinXPが動作したのを確認したところで、さすがに精神力が落ちました。

2日連続の徹夜が限界のようです。3日目の深夜では頭の中で砂嵐が吹き始めました。

きっと呂律も怪しくなっているかも?というより、問題解決したって気が抜けたのかも?

ともかく3日目の徹夜はやめて眠ることに。

さて、8月31日土曜日は、朝の8時ごろに目覚めて、パソコンの様子伺いです。

なにごともない模様です。2日間のパソコン作業を放置していたので、それを取り戻すべく仕事作業をカンパリました。その間もパソコンは安定動作しています。

つまり、ケーブル不良が発生して、今回のトラブルになりました。もちろんハードディスクは前部無事でした。

ケーブル不良発生の原因は憶測ですが、ハードディスクの微弱振動等によるコネクター部のかしめ緩み、または、半田浮きといったものだと思います。いつもは配線が接続しているが微妙なクラック等で切断する時があり、それで不良発生というパターンですね。

まぁー、この手の障害切り分けが大変なのは事実です。

はぁー、ある意味で疲れましたが、これはこれでOK。

経年劣化で発生する障害をどう対策するかは、品物も耐久商品も、そして個人の人生も一緒ですね。

 

今朝の体重は「本日のまとめ」をご覧になってください。

 

本日のまとめ-2013年8月31日-台風崩れの風が強いのー – なが~ンのごちゃごちゃ、そして長~く続く出口のないジャンクなパラダイス??

この週末も天気が荒れている。先週末に天気が悪くて海水浴に行けなかった。そして嫁さんがどうしても海水浴に行きたいと月末に行くぞーと、さらに怨念のように思っていた。…

 

コメント

タイトルとURLをコピーしました