web-dev-qa-db-ja.com

PowerEdge 2970の問題

私が働いている会社は3台のPowerEdge 2970サーバーを購入したばかりで、すべて同じ問題を抱えています。

  1. このサーバーは購入する価値がありますか、それともそれに伴う問題により価値がありませんか?
  2. AMDプロセッサ(Opteron)の使用に多くの問題がありますか?
  3. イベントログで取得したエラーの詳細を提供すれば、問題を特定できますか?

ここに問題があります:

1.サーバーの電源を入れます。 Red Hatスプラッシュ画面が表示されます。
2。起動の途中で、サーバーがクラッシュし、次のエラーが発生します。

-CPU Machine Chk: processor sensor, transition to non-recoverable was asserted
-PCI Parity Err: critical event sensor, PCI PERR (BUS 0 DEVICE 1 FUNC 0)

次に、BIOSとBMCを更新しようとしましたが、問題はまだありました。その後、OS(Red Hat Enterprise 5.1を搭載)をRed Hat5.3にアップデートしようとしました。そこにも奇妙なことがありました。ビルドと更新ユーティリティを使用してサーバーを起動し、[OSのインストール]を選択しました。 Red Hat Enterprise 5.3x86_64を選択しました。それはx86_64メディアを私に問い合わせたので、私は言ったディスクを入れました:64ビットAMD64とIntel 64のための1の補足ディスク1。それは間違ったディスクと言いました。そこで、64ビットIntelItanium用のインストールディスク1/1というディスクを使用しました。私の推測では、ずっと使っていたディスクだと思います。

この後、システムはコマンドラインログイン画面まで起動できました。ログインして「:startx」と入力し、GUI環境に入りました。その時点では、1ページ未満のテキストが高速にスクロールし、サーバーはクラッシュし、関連するGUIは何も表示されませんでした。

その時点で、2つの異なるエラーが発生しました(デバイスが4になっていることに注意してください。どのデバイスかを確認します)。

-PCI Parity Err: critical event sensor, PCI PERR (BUS 0 DEVICE 4 FUNC 0)
-PCI Sytem Error:critical event sensor, PCI SERR(BUS 0 DEVICE 4 FUNC 0)

そのため、今日、技術者はたくさんの部品を持ってきて、基本的にサーバーを再構築しました(PCIライザー、マザーボード、DIMM、SASカードなど、頭のてっぺんからはわからないもの)現場にありましたが、その後、問題はさらに悪化しました。これらのエラーのいくつかは次のとおりでした(その時点で彼は元の部品のいくつかを元に戻していたので、物事が乱雑になりました):

ECC uncorr Err:メモリセンサー、訂​​正不可能なECC(DIMM1 DIMM2)がアサートされました。
E1231 1.2VHTコアパワーGd
E1911 <3ERRORSチェックログ
E1000フェイルセーフ

明日彼は電源を持って戻ってきます...

更新:これにもう時間を費やすことができないようです。私たちは営業担当者に電話し、新しいサーバーを求めています。

6
yan bellavance

最近、デルで同様の問題に遭遇しました。テクニカルサポートは、エラーを失敗したパーツに直接関連付けることができないようです。多くの場合、彼らは私が「何が間違っているのかわからない」と呼んでいるものを送ります。通常、システムボード、PCIライザー、交換用メモリ、場合によっては交換用のCPUとRAIDコントローラーで構成されます。

彼らがしばしば交換するのを忘れていることの1つは、統合されたPERCカードのライザーです。そして、私はそれが問題になるのを何度か見ました。

とにかく、前にコメントしたように、これらのサーバーを導入するために急いでいる場合を除いて、デルのカスタマーケアに連絡し、3台すべてのサーバーの交換または返金を要求します。

3
ITGuy24

これまでに、不良なRAIDカードでこれを見たことがあります。私は提案します

1)可能な限りすべてのカードを引き出して、起動できるかどうかを確認します。さらに重要なことは、次のことです。

2)デルに連絡してください。彼らのエンタープライズテクニカルサポートは本当に良いです、そして正直なところあなたはハードウェアエラーを持っているように聞こえます。

2
Zypher
  1. デルに連絡してください-サーバーが保証期間中の場合は、これらのエラーを簡単にトラブルシューティングする必要があります
  2. 保証がない場合でも、デルに電話してトラブルシューティングを行い、交換が必要な部品を特定することができます
  3. このエラーは通常、CPUまたはMBに問題があることを示しています。そこに複数のCPUがある場合は、1番目のソケットに1つのCPUを置いてシステムを起動してみてください。それが失敗した場合は、別のCPUで同じことを試してください。また、一般に、POSTを可能にする最小限のハードウェア構成にシステムを分解することは常に良いことです。つまり、すべてのHDD、コントローラー、および周辺機器を取り外し、CPUとメモリDIMMを1つだけ内部に残します。ヘルプ、おそらくMBの問題があります。 min2POST config POSTSが正常に実行された場合は、エラーが発生するまでパーツの追加を開始します。これにより、問題のあるパーツを特定できます。
1
dyasny

別のOS提案のテストを次に行いますが、演習のこの時点で実際に行うことは、これらのサーバーをどのように交換するかについて営業担当者に電話で叫ぶことです。購入したばかりであり、新品なので、選択したメンテナンス/サポート計画に関係なく、消費者法によりデルが法的に義務付けられている標準の販売保証の対象となります。

あなたはここでなんらかの回り道を与えられているように私には見えます、そしてあなたは十分に我慢していると思います。良い機器をに入れる時が来ました。

1
Maximus Minimus

あなたの質問に関しては...
1)それは完全に主観的です
[。
3)最初に質問する必要があります

投稿した問題について、トラブルシューティングを行う場合は、まず Memtest を実行します(メモリエラーメッセージのように聞こえますが、PCIバスとデバイス番号で具体的にわかります)。一方、サポート担当者が販売したサーバーの問題を修正することを強く主張します。

1
gharper

最初にOSを除外するのは良いことです。 Windowsサーバーをインストールしてみてください。 Windowsは最も幅広いドライバーをサポートしています。 Windowsをインストールすることさえできない場合は、おそらく何らかのハードウェア障害があることを確信しています。あなたがそのコピーを持っていないなら、ubuntuサーバーは私が知る限りほとんどのハードウェアでうまく機能します。

非常に一般的なLinuxディストリビューションのインストールを拒否するサーバーがありました。その上にubuntuサーバーを置くとすぐに、それは初めて動作しました。おそらく、ある時点でRedhatがそこにあり、機能していましたが、カーネルの更新が失敗しましたか?

また、BIOSをデフォルトに設定してみてください。また、RAIDドライブを再初期化し、それを再度設定してみてください。

1
Matt