DWORD同期の喪失は、SASディスクの状態にどのように影響しますか？

Question

SAS（SSP）の値と説明を出力する次のコマンドを実行して、 [〜＃〜] sas [〜＃〜] ディスクのエラーログから詳細情報を取得しようとしました。）プロトコル固有のログページ。

# smartctl -d scsi -l sasphy /dev/sg1 Protocol Specific port log page for SAS SSP relative target port id = 1 generation code = 79 number of phys = 1 phy identifier = 0 attached device type: end device attached reason: power on reason: loss of dword synchronization <======================== (?) negotiated logical link rate: phy enabled; 6 Gbps attached initiator port: ssp=1 stp=1 smp=1 attached target port: ssp=0 stp=0 smp=0 SAS address = 0x5000... attached SAS address = 0x5b8... attached phy identifier = 6 Invalid DWORD count = 0 Running disparity error count = 0 Loss of DWORD synchronization = 24194 <======================== (?) Phy reset problem = 0 ... relative target port id = 2 generation code = 79 number of phys = 1 phy identifier = 1 attached device type: no device attached attached reason: unknown reason: unknown negotiated logical link rate: phy enabled; 1.5 Gbps attached initiator port: ssp=0 stp=0 smp=0 attached target port: ssp=0 stp=0 smp=0 attached SAS address = 0x0 attached phy identifier = 0 ...

上記のことから、DWORD同期の損失が大きいことに注意してください。これは、 IBMによると、 [〜＃〜] phy [〜＃〜 ] DWORDの着信ストリームの検出を停止します。このエラーに関する詳細情報を検索しようとしましたが、見つからないようです。

DWORD同期の喪失は、SASディスクの状態にどのように影響しますか？心配する必要がありますか？そして、どのしきい値レベルでそれを監視する必要がありますか？

Baruch Even · Answer

このエラーは、ドライブ自体の状態には影響しません。リンクの問題がない別のシャーシにドライブを移動する場合、ドライブは問題ありません。これは、リンクの問題がドライブポート自体に起因するものではないことを前提としています。

これらのエラーは、ドライブとアップストリームポート間のリンクに問題があることを意味します。ケーブルがそこにある場合はケーブルが不良である可能性があり、そうでない場合はポートの1つが不良であることを意味します。もちろん、ケーブルを持っていても、ポートの1つが不良であることを意味する場合があります。

それを診断する方法は、同じスロットで別のディスクを使用し、エラーが消えたかどうか、ディスクが消えたかどうかを確認することです。エラーが残った場合、元のディスクは問題ありませんが、サーバー/シャーシのポートが不良であり、サーバー/シャーシを交換する必要があります。

Dword同期の喪失に関する問題は、送信されたIOの一部に対して追加の再試行を意味し、これらの再送信のためにデータ送信をさらに待機することにより、IOの待ち時間が長くなることです。深刻なケースでは、エラーリカバリの一部としてタスクの中止が送信され、ターゲットがリセットされることもあります。これにより、ドライブに何秒間もアクセスできなくなり、ファイルシステムに障害が発生したり、RAIDによってディスクがドロップされたりする可能性があります。