SSDのハードリセットリンクCentOS7

Question

私は2つ持っています Intel SSDSC2CW120A3 SSD in SuperMicro X9SCL/X9SCM CentOS 7のソフトウェアRAID-1用に設定：

Linux hostname.local 3.10.0-957.5.1.el7.x86_64 #1 SMP Fri Feb 1 14:54:57 UTC 2019 x86_64 x86_64 x86_64 GNU/Linux

dmesgでは、ata1とata2の両方で「ハードリセットリンク」が表示され続けます。ほとんどの場合、私（または監視）はダウンタイムに気づきませんが、サーバーが完全にフリーズすることがあります。 dmesgの出力によると、電源のリセット（SSHで接続できなくなりました）は、かなり頻繁に発生します。

$ dmesg | grep "hard resetting link" [161507.540860] ata1: hard resetting link [161751.123732] ata2: hard resetting link [161798.132697] ata2: hard resetting link [161879.126542] ata2: hard resetting link [161939.134102] ata2: hard resetting link [162536.225103] ata1: hard resetting link [164738.176816] ata1: hard resetting link

dmesgからのより多くの出力：

[229999.873718] ata1.00: failed command: WRITE FPDMA QUEUED [229999.879043] ata1.00: cmd 61/08:f0:28:12:d5/00:00:00:00:00/40 tag 30 ncq 4096 out res 40/00:00:00:4f:c2/00:00:00:00:00/00 Emask 0x4 (timeout) [229999.894050] ata1.00: status: { DRDY } [229999.897815] ata1: hard resetting link [230000.206411] ata1: SATA link up 3.0 Gbps (SStatus 123 SControl 300) [230000.223165] ata1.00: ACPI cmd ef/10:06:00:00:00:00 (SET FEATURES) succeeded [230000.223179] ata1.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out [230000.231187] ata1.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out [230000.253132] ata1.00: ACPI cmd ef/10:06:00:00:00:00 (SET FEATURES) succeeded [230000.253137] ata1.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out [230000.261148] ata1.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out [230000.273568] ata1.00: configured for UDMA/133 [230000.277980] ata1: EH complete

SATAケーブルを確認しましたが、問題ないようで、プラグを抜いてから再度差し込んだところ、smartctlはかなりの修正不可能なエラーを報告しますが、それ以外は何も疑わしいことはありません。また、利用可能なカーネルアップデートはありません。

ドライブまたはボードの交換を開始する前に、他に確認できるものがあるかどうか疑問に思っていますか？この問題が難しいのか、ソフトウェアに関連するのかを理解しようとしています。

TIA

user34720 · Answer

「SATAケーブルを確認しましたが、問題ないようです。プラグを抜いて、もう一度差し込んでください。」

私は自宅で同じ問題を抱えていましたが、それらのSATAケーブルを交換するだけで解決しました。あなたと同じように、彼らは肉体的には大丈夫に見えましたが、彼らの中に何か問題がありました。ケーブルを見ただけで判断しないでください。そして、これらのataエラーは煩わしいものであり、PSUからでも、どこからでも発生する可能性があります。例：

電源の障害を見つけるのはかなり面倒です：

...最初はSATAコントローラーまたはケーブルの問題だと思ったので、ドライブを切り替えましたが、同じドライブが引き続き影響を受けました。その後、BIOSを定期的にリセットすることを決定するまで、しばらくの間サイドトラックされたドライブに関連していると思いました。そうすることで、私はランダムに電源電圧を調べました。12Vレールは約10.2Vに低下しました......それは本当に迷惑な経験であり、症状は非常に誤解を招くものでした。結局のところ、ドライブは問題なく、それはまったく別の問題の現れにすぎませんでした。これからは、lmセンサーの電圧も定期的にチェックします。

あなたの特定のシナリオでは、私は次の方法でトラブルシューティングを行います。

まず最初に（なぜなら、mdraid）：

ディスクコントローラーが FakeRAID であるかどうかをBIOS内で確認し、セットアップでRAIDモードが有効になっているかどうかを確認します。 Sata AHCIに変更し、システムを再インストールします。 FakeRAIDのRAIDモードがmdraidの設定を台無しにする可能性があることは、かなり一般的な知識です（そしてRed Hatでさえも）。 これでは問題を解決できませんでしたが、近い将来の頭痛を回避できます。

sataチェック後：

SATAケーブルを交換してください。 supermicroがマザーボード側である種の「独自の」コネクタを使用しない限り、それらは最近かなり安価です。
SSDとディスクコントローラーのファームウェアを更新します。あなたの問題（_failed command: WRITE FPDMA QUEUED_、Emask 0x4 (timeout)）はこれと非常に関連しているようですが、ハードウェアが異なります： [解決済み] "失敗したコマンド：WRITE FPDMA QUEUED" ATAエラー
友人から予備のPSUを借りて、仕様に注意し、交換してみてください。
すべての基本を完了したので、supermicroに連絡して、マザーボードに焦点を当てたサポートケースを試してください。
その後、ディスクを交換します。

ron · Answer

ドライブまたはボードの交換を開始する前に、他に確認できるものがあるかどうか疑問に思っていますか？

私の自宅のPC、asrocklga1156上のCentOS7.6。 NVidiaグラフィックスドライバーがgtx970をサポートし、カーネルの更新を行いました...多くの人が知っているように、nvidiaのインストールはkernel mod[dkmsを使用しない限り]失われます。そのため、カーネルの更新後、次のような問題が発生しました。

ACHI does not support sleep {repeated} usb1-2 reset high speed device number 2 using xhci_ncd

nvidiaグラフィックドライバを再インストールし、問題を解決しました。

nvidiaドライバーがない場合は、同様の方法でインストールされる他のソフトウェアを見逃さないでください。カーネルモジュールをインストールします。