web-dev-qa-db-ja.com

DellT610サーバーで繰り返しディスク障害が発生する

使用済みのPoweredgeT610を購入し、2x Hexcore XeonX5675プロセッサと96GBRAMにアップグレードしました。最初は、RAID-5アレイ(Perc6iコントローラー)で3つのWDグリーン2TBドライブを使用し、仮想ディスクにUbuntuサーバーをインストールしました。この設定は約1年間うまく機能し、その後問題が発生しました。

2番目のアレイとして拡張するためにいくつかの新しいドライブを購入しました-4x3TBWD赤いドライブ。その間に、少なくともWDグリーンは良い選択ではないことを知ったので、新しいVDでいくつかのデータをバックアップしたいと思いました。 Perc6iは2TBを超えるドライブを好まないことが判明しましたが、3TBの最初の2つを認識しました。新しいドライブでVDのセットアップをまだ開始していませんでしたが、3週間後、WDグリーンアレイが破損し始めました(最初は一部のソフトウェアで奇妙なグリフのみで、次に起動シーケンスが破損するまでさらに深刻な問題が発生しました)。私は幸運にも私を助けることができるプロのデータ復旧サービスに行き着きました。 Perc6iをH700に交換し、4台の3TB WDレッドドライブのRAID6アレイをセットアップしました(セットアップ前にDellハードウェア診断拡張テストでテストしました。いずれにもエラーはありません)。 Ubuntu、必要なすべてのソフトウェア、x2goなどをインストールします...再起動して実行します。

今、私は以前と同じ問題を抱えています-X2goでは、コマンドラインでグリフを吐き出す同じソフトウェア(バイオインフォマティクスアルテミスパッケージ)で始まり、正方形に戻っているようです。キャディのすべてのステータスLEDは常に緑色、つまりオンラインです。システムが少なくとも認識する予測される障害はありません。

私は問題が何である可能性があるのか​​疑問に思い始めています:

私が考えていないことは次のとおりです。-プライマリディスクの障害(再び!)は、ドライブが新しい​​ため、長時間のテストで不良セクタがなく、電源投入時間もまったくありませんでした。 -perc6iコントローラーは最初の災害後にH700に交換されており、問題はないはずです。

評価するために助けが必要なもの:-バックプレーン/ケーブルの問題? (H700コントローラーには、私のケースに適合しない別のサーバータイプ用のケーブルが付属していました。コントローラーをバックプレーンに接続するために別のSATA6ケーブルを使用しただけです)ちなみに、ドライブは以前と同じベイにあり、故障しています。オリジナルのDellSATAケーブルがそこにあります。

-マザーボードの問題? -CPUまたはRAM問題?-電源(電圧ピーク??)

誰かが以前に同様の問題を抱えたことはありますか?ここでの助けは大歓迎です。残念ながら、サーバー(物理的およびネットワークの両方)にアクセスできるようになるまでにさらに2週間不在です。この問題は、ローカルネットワークでサーバーを使用している妻から「報告」されています(残念ながら、報告されません)。トラブルシューティングに役立ちます)。


はい、問題なく完全なデルのハードウェア診断手順を実行しました。欠陥のあるブロックで検出されたドライブは1つだけでしたが、RAID 5アレイを再構築できなかったため、データ復旧のスペシャリストです。他のすべてのハードウェアは大丈夫​​でした

ある時点でテストを通過し、別の時点で失敗する可能性のあるグリッチな連絡先のような一貫性のない問題があるのではないかと思います。または、テストがすべてのシナリオをカバーしていない場合...

1
kruemelprinz

経験から、それはラムの破損の問題のように聞こえます。私が最初に試すのは、メモリ診断ツールです。デルでは、ダウンロードして入手できます。

エラーが見つからない場合は、すべてのハードウェアをプルして必要最小限に抑え、問題が発生するまで追加し直します。非常に時間がかかりますが、診断で何も表示されない場合の唯一の方法である場合があります。明らかに、ハードドライブでこれを行うことは困難ですが、CPUとRAMでこれを行うことができます。一度に1つずつ追加することを忘れないでください。そうしないと、どちらが原因かわかりません。

私の他の提案は、ベアメタルにインストールする代わりに、ハイパーバイザーを使用して仮想マシンを作成することです。これにより、障害が発生した場合の機能の復元がはるかに簡単になります。また、アプリケーションをインストールする前にバックアップ体制を確立すると、データ復旧サービスが再度必要になるのを防ぐのに役立ちます。

1
Cubano

不運?別の新しいコンピュータでHDDをテストして、現在のステータスを確認してください。

T610は9歳のようなものであることに注意してください。正直なところ、現在のデスクトップはT610よりも高速だと思います。

ドライブのファームウェアが影響を与える可能性がありますが、アレイはそれらを外部ディスクとしてフラグを立てます。一度にすべてを変更したという事実の方が優れています。ファームウェアとバニラドライブが混在するDellドライブはありません。コントローラーは、それを許可しません。

ディスク上のファームウェアにより、コントローラーはディスクで高度な機能を実行できますが、アレイは、通常のファームウェアを備えたバニラディスクが使用されている場合、正常に動作します。

アレイが検出されたという事実は、コントローラーがそれらを認識して使用できると私に思わせます。それが私が最初に不運を述べた理由です。

0
yagmoth555