web-dev-qa-db-ja.com

シングルコア障害の根本原因の診断

Ryzen3700XとASUSTUF X570(WiFi)で構成される新しいシステムに奇妙な問題があります。

システムを起動し、NVMeにWindowsをインストールしてから、Windowsを起動して実行することができました。数日間使用した後、システムが予期せずシャットダウンしました。この時点から、オペレーティングシステムを完全に起動することができなくなりました。既知の動作中のHDD上のWindows、新しいWindows NVMeインストール、Windows USBリカバリ、および別のHDD上のUbuntuはすべて起動に失敗します。

何かが緩んでいるのではないかと心配して、システム内のすべてのコネクタを取り付け直しました。次に、GPUを別のPCIeスロットで動作する別のGPUに交換しました。私はメモリを取り付け直し、異なるポートで両方のシングルスティックを使用して実行してみました。また、別の既知の動作するPSUを使用し、単一のキーボード、DisplayPort、および内部NVMe/USBブートドライブ以外のすべての外部ケーブルを取り外しました。問題は解決しませんでした。

最後に、Memtest86を実行することができました。デフォルトの構成では、テストは数秒間実行されてから、エラーのストリームが作成され、エラーが多すぎる、ハングする、またはシステムがリセットされるために終了しました。多くの場合、エラーにより単一のCPU(14)が問題として識別されました。

次に、シングルCPUモードでMemtestを実行しました。これは、0〜13のすべてのコアで問題なく通過しましたが、14と15は常にすぐにハングしました。私のBIOSでは、CPUを2、4、6、またはdefault(8)コアモードで実行できます。2つのコアを選択した後、OSを再度起動して実行できます。

これらの問題は、マザーボードやCPUを交換せずに、チップセットの問題を示していると思いますが、どちらに問題があるのか​​を判断する方法はありますか?マザーボードは、そのようなシステムのコア選択とメモリ管理にどのくらい参加していますか?

2
mfurseman

テストは、損傷したCPUコアを非常に強く示しています。プロセッサ全体やマザーボードではなく、特定のコア。アドレスまたはデータバスに障害があり、RAMに正しくアクセスできないだけです。

私がそれを言う理由は、CPU 14と15が、Memtestを「すぐにハング」させると言っているからです。それがマザーボードの故障だったとしたら、コアがまったく機能しないと思います。

最新のシステムのメモリコントローラーは、CPUパッケージに直接組み込まれています。マザーボードを直接通過してメモリースティックに到達します。マザーボードにメモリ障害が発生した場合、どのコアがマザーボードにアクセスしているかは関係ありません。実際のメモリバスはすべてのコアに共通であるため、すべてのコアでエラーが発生するはずです。

2つ目の気になるのは、コア1415であるということです。 700X は8コアと16スレッドです。したがって、障害のある1つのコアは2つのスレッドに影響します。影響を受けるのは1つのスレッドだけではなく、両方です。コア周辺のスレッドロジックだけでなく、そのコア自体に障害がある可能性があります。

他のコアが正常であるという事実は、CPUパッケージ内の内部コア間バスと同様に、メモリコントローラーが機能して「良好」であることを示しています。特定のコアが機能しないということは、それらの特定のコアに心配な障害があることを示しています。 可能性がありますCPU内のタイミングの問題(問題のあるメモリコントローラーから離れたコア)これは、ファームウェアのマイクロコードの更新で修正できる可能性があります(ただし、疑わしいです)。または、(ほとんどの場合)永続的な物理的な障害です。

マルチコアモードでの不安定な動作は、プログラムがコア間でランダムにシャッフルすることです。良いコアでは問題ありませんが、悪いコアではプログラムまたはデータのエラーが発生します。

以下に最新のコンピューターの構造を示すために、 Guru3D から取得したAMDチップセットシステムの一般的な配置を示します。 CPUがシステムの真の「コア」になり、メモリとグラフィックスが直接接続され、PCHがさまざまな外部デバイスの処理に追いやられていることに注意してください。最新のCPUは、20年前よりもはるかに多くの統合を備えています。

enter image description here

1
Mokubai