web-dev-qa-db-ja.com

ESXiでディスクに障害が発生しているかどうか、またはこれらのエラーの意味を確認するにはどうすればよいですか?

VMware ESXi v4.1.0 348481を実行しているサーバーがあります。このサーバーには、ハードウェアRAID10とSATAバックアップドライブがあります。私はVM実行しており、RAID10データストアにプライマリブートvmdkがあり、SATAバックアップドライブのデータストアに600 GB vmdkがあります。VMはDebianを実行しますLinuxとFreeBSDカーネル、バックアップドライブにZFSを使用。

編集:ドライブはVMに直接接続されていないではない。これはVMwareデータストアとして使用され、VMはSATAドライブのデータストアにvmdkを持っています。データストアはではありませんフル(65%のみフル)

SSHを使用してサーバーにログインしたところ、昨夜のバックアップがハングしていて、zfs listまたはzpool list両方がハングしました。そのため、ESXiで仮想コンソールを開いたところ、残念でした。

This screenshot makes me sad

(da1:mpt0:0:1:0): READ(10). CDC: 28 0 19 97 3a 50 0 0 2d 0
(da1:mpt0:0:1:0): CAM status: SCSI Status Error
(da1:mpt0:0:1:0): SCSI status: Check Condition
(da1:mpt0:0:1:0): SCSI sense: MEDIUM ERROR info:4862ec asc:11,4 (Unrecovered read error - auto reallocate failed)
(da1:mpt0:0:1:0): READ(10). CDC: 28 0 19 97 3a 50 0 0 2d 0
(da1:mpt0:0:1:0): CAM status: SCSI Status Error
(da1:mpt0:0:1:0): SCSI status: Check Condition
(da1:mpt0:0:1:0): SCSI sense: MEDIUM ERROR info:4862ec asc:11,4 (Unrecovered read error - auto reallocate failed)

VM=を再起動しようとしたところ、システムが再起動のためにダウンしているというメッセージが表示され、その後ハングしました(^ Cは表示されますが、shutdownは強制終了されません)。中断できない、またはkill -9zpool listzfs listまたはrsyncプロセス-試しても何も起こりません。

  1. これは、バックアップSATAドライブが故障していることを示していますか?それともESXiエラーだけでしょうか?
  2. ドライブが故障しているかどうかは、vSphereクライアントでどのように確認できますか?何も表示されず、ハードウェアヘルスステータスの下のすべてが良好に見え、ストレージ構成の下には何も表示されませんでした。
  3. ここからどうすればいいですか? VMをハードリブートするだけですか?

PDATE: VMをハードリブートしました。オンラインに戻った後、バックアップzpoolはオンラインでしたが、

root@timestandstill:/home/jnet# zpool status -v
  pool: backup
 state: ONLINE
status: One or more devices has experienced an error resulting in data
        corruption.  Applications may be affected.
action: Restore the file in question if possible.  Otherwise restore the
        entire pool from backup.
   see: http://www.Sun.com/msg/ZFS-8000-8A
 scrub: none requested
config:

        NAME        STATE     READ WRITE CKSUM
        backup      ONLINE       0     0     0
          da1       ONLINE       0     0     0


errors: Permanent errors have been detected in the following files:

        /backups/someserver/home/someuser/public_html/somedir/calendar/someuser/calendars/somefile.ics

ドライブの交換に大きく傾いています...

10
Josh

これらのエラーは確かに、SATAドライブの1つがブロック再割り当てスペースを使い果たすのに十分な不良ブロックを検出したことを示しています。そのドライブは不良であり、交換する必要があります。 vSphereクライアントのどこに情報が表示されるのかわかりませんが、ログエントリはかなり明確です。

ハードウェアで許可されている場合は、ホットスワップが可能です。そうしないと、変更を実行するためにすべてをシャットダウンする必要があります。 VMが30分後にシャットダウンしない場合は、ハードターミネーションを終了するときです。危険ですが、本当にハングアップしている場合は、あまり意味がありません。

5
sysadmin1138