web-dev-qa-db-ja.com

DWORD同期の喪失は、SASディスクの状態にどのように影響しますか?

SAS(SSP)の値と説明を出力する次のコマンドを実行して、 [〜#〜] sas [〜#〜] ディスクのエラーログから詳細情報を取得しようとしました。 )プロトコル固有のログページ。

# smartctl -d scsi -l sasphy /dev/sg1
Protocol Specific port log page for SAS SSP
relative target port id = 1
  generation code = 79
  number of phys = 1
  phy identifier = 0
    attached device type: end device
    attached reason: power on
    reason: loss of dword synchronization   <======================== (?)
    negotiated logical link rate: phy enabled; 6 Gbps
    attached initiator port: ssp=1 stp=1 smp=1
    attached target port: ssp=0 stp=0 smp=0
    SAS address = 0x5000...
    attached SAS address = 0x5b8...
    attached phy identifier = 6
    Invalid DWORD count = 0
    Running disparity error count = 0
    Loss of DWORD synchronization = 24194   <======================== (?)
    Phy reset problem = 0
...
relative target port id = 2
  generation code = 79
  number of phys = 1
  phy identifier = 1
    attached device type: no device attached
    attached reason: unknown
    reason: unknown
    negotiated logical link rate: phy enabled; 1.5 Gbps
    attached initiator port: ssp=0 stp=0 smp=0
    attached target port: ssp=0 stp=0 smp=0
    attached SAS address = 0x0
    attached phy identifier = 0
...

上記のことから、DWORD同期の損失が大きいことに注意してください。これは、 IBMによると[〜#〜] phy [〜#〜 ] DWORDの着信ストリームの検出を停止します。このエラーに関する詳細情報を検索しようとしましたが、見つからないようです。

DWORD同期の喪失は、SASディスクの状態にどのように影響しますか?心配する必要がありますか?そして、どのしきい値レベルでそれを監視する必要がありますか?

1

このエラーは、ドライブ自体の状態には影響しません。リンクの問題がない別のシャーシにドライブを移動する場合、ドライブは問題ありません。これは、リンクの問題がドライブポート自体に起因するものではないことを前提としています。

これらのエラーは、ドライブとアップストリームポート間のリンクに問題があることを意味します。ケーブルがそこにある場合はケーブルが不良である可能性があり、そうでない場合はポートの1つが不良であることを意味します。もちろん、ケーブルを持っていても、ポートの1つが不良であることを意味する場合があります。

それを診断する方法は、同じスロットで別のディスクを使用し、エラーが消えたかどうか、ディスクが消えたかどうかを確認することです。エラーが残った場合、元のディスクは問題ありませんが、サーバー/シャーシのポートが不良であり、サーバー/シャーシを交換する必要があります。

Dword同期の喪失に関する問題は、送信されたIOの一部に対して追加の再試行を意味し、これらの再送信のためにデータ送信をさらに待機することにより、IOの待ち時間が長くなることです。深刻なケースでは、エラーリカバリの一部としてタスクの中止が送信され、ターゲットがリセットされることもあります。これにより、ドライブに何秒間もアクセスできなくなり、ファイルシステムに障害が発生したり、RAIDによってディスクがドロップされたりする可能性があります。

2
Baruch Even