RAMにECCによって修正されるエラーがあるかどうかを監視するにはどうすればよいですか?プロセッサはIntel Xeon(Ivy Bridge)プロセッサであり、オペレーティングシステムはScientific Linux6.3です。以前のシステムでは私はAMDCPUを持っていて、そのシステムではedac-utilを使用してこの情報を取得でき、カーネルログにもアラートを発行していました。
Sb_edacモジュールでサポートされているのはE5Xeonのみです。
Linuxカーネルのバージョン3.17以降、E3 XeonのECCエラーは、 this commit によって導入されたie31200_edac
ドライバーを使用して監視できます。これは標準のEDACインターフェースを使用するため、edac-util
を使用してエラーを一覧表示できます。
もう少し詳しく:
Sudo modprobe ie31200-edac
ドライバをロードします。これにより、次のような行になります。
[ 14.635299] EDAC MC: Ver: 3.0.0
[ 14.637898] EDAC MC0: Giving out device to module ie31200_edac controller IE31200: DEV 0000:00:00.0 (POLLED)
カーネルログに表示されます(C216 Haswellシステム上にあります)。その後
`edac-util`
エラーがあれば報告します。
Xeon D、E5、およびE7メモリコントローラーは、sb_edac
またはskx_edac
モジュールを使用してサポートされます。