私は2つ持っています Intel SSDSC2CW120A3 SSD in SuperMicro X9SCL/X9SCM CentOS 7のソフトウェアRAID-1用に設定:
Linux hostname.local 3.10.0-957.5.1.el7.x86_64 #1 SMP Fri Feb 1 14:54:57 UTC 2019 x86_64 x86_64 x86_64 GNU/Linux
dmesg
では、ata1とata2の両方で「ハードリセットリンク」が表示され続けます。ほとんどの場合、私(または監視)はダウンタイムに気づきませんが、サーバーが完全にフリーズすることがあります。 dmesg
の出力によると、電源のリセット(SSHで接続できなくなりました)は、かなり頻繁に発生します。
$ dmesg | grep "hard resetting link"
[161507.540860] ata1: hard resetting link
[161751.123732] ata2: hard resetting link
[161798.132697] ata2: hard resetting link
[161879.126542] ata2: hard resetting link
[161939.134102] ata2: hard resetting link
[162536.225103] ata1: hard resetting link
[164738.176816] ata1: hard resetting link
dmesg
からのより多くの出力:
[229999.873718] ata1.00: failed command: WRITE FPDMA QUEUED
[229999.879043] ata1.00: cmd 61/08:f0:28:12:d5/00:00:00:00:00/40 tag 30 ncq 4096 out
res 40/00:00:00:4f:c2/00:00:00:00:00/00 Emask 0x4 (timeout)
[229999.894050] ata1.00: status: { DRDY }
[229999.897815] ata1: hard resetting link
[230000.206411] ata1: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[230000.223165] ata1.00: ACPI cmd ef/10:06:00:00:00:00 (SET FEATURES) succeeded
[230000.223179] ata1.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
[230000.231187] ata1.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
[230000.253132] ata1.00: ACPI cmd ef/10:06:00:00:00:00 (SET FEATURES) succeeded
[230000.253137] ata1.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
[230000.261148] ata1.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
[230000.273568] ata1.00: configured for UDMA/133
[230000.277980] ata1: EH complete
SATAケーブルを確認しましたが、問題ないようで、プラグを抜いてから再度差し込んだところ、smartctlはかなりの修正不可能なエラーを報告しますが、それ以外は何も疑わしいことはありません。また、利用可能なカーネルアップデートはありません。
ドライブまたはボードの交換を開始する前に、他に確認できるものがあるかどうか疑問に思っていますか?この問題が難しいのか、ソフトウェアに関連するのかを理解しようとしています。
TIA
「SATAケーブルを確認しましたが、問題ないようです。プラグを抜いて、もう一度差し込んでください。」
私は自宅で同じ問題を抱えていましたが、それらのSATAケーブルを交換するだけで解決しました。あなたと同じように、彼らは肉体的には大丈夫に見えましたが、彼らの中に何か問題がありました。ケーブルを見ただけで判断しないでください。そして、これらのata
エラーは煩わしいものであり、PSUからでも、どこからでも発生する可能性があります。例:
...最初はSATAコントローラーまたはケーブルの問題だと思ったので、ドライブを切り替えましたが、同じドライブが引き続き影響を受けました。その後、BIOSを定期的にリセットすることを決定するまで、しばらくの間サイドトラックされたドライブに関連していると思いました。そうすることで、私はランダムに電源電圧を調べました。12Vレールは約10.2Vに低下しました......それは本当に迷惑な経験であり、症状は非常に誤解を招くものでした。結局のところ、ドライブは問題なく、それはまったく別の問題の現れにすぎませんでした。これからは、lmセンサーの電圧も定期的にチェックします。
あなたの特定のシナリオでは、私は次の方法でトラブルシューティングを行います。
まず最初に(なぜなら、mdraid
):
mdraid
の設定を台無しにする可能性があることは、かなり一般的な知識です( そしてRed Hatでさえも )。 これでは問題を解決できませんでしたが、近い将来の頭痛を回避できます。sataチェック後:
failed command: WRITE FPDMA QUEUED
_、Emask 0x4 (timeout)
)はこれと非常に関連しているようですが、ハードウェアが異なります: [解決済み] "失敗したコマンド:WRITE FPDMA QUEUED" ATAエラードライブまたはボードの交換を開始する前に、他に確認できるものがあるかどうか疑問に思っていますか?
私の自宅のPC、asrocklga1156上のCentOS7.6。 NVidiaグラフィックスドライバーがgtx970をサポートし、カーネルの更新を行いました...多くの人が知っているように、nvidiaのインストールはkernel mod[dkmsを使用しない限り]失われます。そのため、カーネルの更新後、次のような問題が発生しました。
ACHI does not support sleep
{repeated} usb1-2 reset high speed device number 2 using xhci_ncd
nvidiaグラフィックドライバを再インストールし、問題を解決しました。
nvidiaドライバーがない場合は、同様の方法でインストールされる他のソフトウェアを見逃さないでください。カーネルモジュールをインストールします。