性質不明の高いCPUシステム時間

Question

環境：
インテルサーバーボードS2600GZ
2 x Intel Xeon CPU E5-2620
128GB DDR3 RAM
4つのST2000NM0033-9ZM175SATAディスクを搭載したIntelRAIDコントローラーRS25DB080（LSI SAS2208）
Ubuntu 12.04.5 LTS/Linux3.11.0-26-汎用x86_64

前述のコントローラーで構築された4TBハードウェアRAID10ボリュームと、それにインストールされたUbuntu ServerOSがあります。このサーバーは、マイナーな負荷（適度にアクティブなGlusterFSレプリカブリックといくつかのバックアップKVM/qemu VM）の下で「ホットスタンバイ」です。

ディスク負荷が増加すると（一部のVMが主要な役割を取得するか、再起動するか、GlusterFSボリュームアクティビティが増加する）、CPUシステム時間のバーストと高い負荷平均値が発生することがあります。 htopもiotopも犯人を明らかにしません。 irqとsoftirqの値は正常です。通常、ディスクの負荷を軽減しようとすると、最終的にCPUシステムの時間がゆっくりと正常になります。しかし、それがすべて再び起こるまでだけです。

私たちは実際にストレージサブシステムを疑っていますが、正確に何が故障しているかを理解することはできません。 MegaCli -PDList -aALLはディスクの問題を報告せず、MegaCli -AdpEventLog -GetSinceReboot -f lsi-events.log -aALLは一般的なエラーを報告せず、ボリュームの状態は常にoptimalです。 smartctlは、どのハードディスクにもS.M.A.R.T.の問題は報告されていません。状況はすでに6か月以上再発し続けており、上記のレポートはいずれも変更されていません。すべてのシステムが正常であるように見えます。

だから、ここに質問があります。 小さなチャンス説明されている問題は、RAIDコントローラーの障害が原因である可能性がありますか？または、ディスクの1つが故障していて、そのS.M.A.R.T.サブシステムとコントローラーファームウェアの両方が不思議なことにそれを検出できない可能性が高いですか？後者の場合、どのようにしてディスクを識別できますか？または、それがコントローラーの障害であることをどのように確認できるので、交換する必要がありますか？多分他の提案はありますか？

Francesco P · Answer

本当に？？？？

2台のサーバーで2年前に同じ問題が発生したため、内部レイドコントローラーを使用することを信頼していませんでした。1週間後、ソフトウェアレイドを使用して両方をスクラッチして再インストールすることにしました（常に安全です）。 2年後、問題なく動作します。もちろん、私の顧客は多くのお金を無料で費やしましたが、私が他のHWベンダーと仕事をするために使用する最初からの選択について彼に同意しませんでした。

見てください。

dmidecode -t 2

SMBIOS 2.6 present. Handle 0x0002, DMI type 2, 15 bytes Base Board Information Manufacturer: Intel Corporation Product Name: S2600GZ Version: G11481-354 Serial Number: QSGR34501185 Asset Tag: .................... Features: Board is a hosting board Board is replaceable Location In Chassis: To be filled by O.E.M. Chassis Handle: 0x0003 Type: Motherboard Contained Object Handles: 0