SAS(SSP)の値と説明を出力する次のコマンドを実行して、 [〜#〜] sas [〜#〜] ディスクのエラーログから詳細情報を取得しようとしました。 )プロトコル固有のログページ。
# smartctl -d scsi -l sasphy /dev/sg1
Protocol Specific port log page for SAS SSP
relative target port id = 1
generation code = 79
number of phys = 1
phy identifier = 0
attached device type: end device
attached reason: power on
reason: loss of dword synchronization <======================== (?)
negotiated logical link rate: phy enabled; 6 Gbps
attached initiator port: ssp=1 stp=1 smp=1
attached target port: ssp=0 stp=0 smp=0
SAS address = 0x5000...
attached SAS address = 0x5b8...
attached phy identifier = 6
Invalid DWORD count = 0
Running disparity error count = 0
Loss of DWORD synchronization = 24194 <======================== (?)
Phy reset problem = 0
...
relative target port id = 2
generation code = 79
number of phys = 1
phy identifier = 1
attached device type: no device attached
attached reason: unknown
reason: unknown
negotiated logical link rate: phy enabled; 1.5 Gbps
attached initiator port: ssp=0 stp=0 smp=0
attached target port: ssp=0 stp=0 smp=0
attached SAS address = 0x0
attached phy identifier = 0
...
上記のことから、DWORD同期の損失が大きいことに注意してください。これは、 IBMによると 、 [〜#〜] phy [〜#〜 ] DWORDの着信ストリームの検出を停止します。このエラーに関する詳細情報を検索しようとしましたが、見つからないようです。
DWORD同期の喪失は、SASディスクの状態にどのように影響しますか?心配する必要がありますか?そして、どのしきい値レベルでそれを監視する必要がありますか?
このエラーは、ドライブ自体の状態には影響しません。リンクの問題がない別のシャーシにドライブを移動する場合、ドライブは問題ありません。これは、リンクの問題がドライブポート自体に起因するものではないことを前提としています。
これらのエラーは、ドライブとアップストリームポート間のリンクに問題があることを意味します。ケーブルがそこにある場合はケーブルが不良である可能性があり、そうでない場合はポートの1つが不良であることを意味します。もちろん、ケーブルを持っていても、ポートの1つが不良であることを意味する場合があります。
それを診断する方法は、同じスロットで別のディスクを使用し、エラーが消えたかどうか、ディスクが消えたかどうかを確認することです。エラーが残った場合、元のディスクは問題ありませんが、サーバー/シャーシのポートが不良であり、サーバー/シャーシを交換する必要があります。
Dword同期の喪失に関する問題は、送信されたIOの一部に対して追加の再試行を意味し、これらの再送信のためにデータ送信をさらに待機することにより、IOの待ち時間が長くなることです。深刻なケースでは、エラーリカバリの一部としてタスクの中止が送信され、ターゲットがリセットされることもあります。これにより、ドライブに何秒間もアクセスできなくなり、ファイルシステムに障害が発生したり、RAIDによってディスクがドロップされたりする可能性があります。