web-dev-qa-db-ja.com

VMWare NFSデータストアとして使用されるボリュームのサイズを変更すると、Linux VMの問題が発生します

NetappでVMWareが使用するNFSデータストアのライブボリュームサイズ変更を実行する必要がありました。サイズ変更後、すべてのWindowsVMは正常でした。ただし、一部のLinuxVMには問題がありました。

一部のLinuxVMは応答を停止しました。これらのVMを再起動した後、問題を示すログには何も見つかりませんでした。

ただし、一部のVMでこの種のログメッセージを見つけました。

May 29 14:56:02 rhel6-server-1314 kernel: INFO: task jbd2/dm-0-8:382 blocked for more than 120 seconds.
May 29 14:56:02 rhel6-server-1314 kernel: "echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message.
May 29 14:56:02 rhel6-server-1314 kernel: jbd2/dm-0-8   D 0000000000000000     0   382      2 0x00000000
May 29 14:56:02 rhel6-server-1314 kernel: ffff880037ce9c20 0000000000000046 ffff880037ce9be0 ffffffffa00041fc
May 29 14:56:02 rhel6-server-1314 kernel: ffff880037ce9b90 ffffffff81012b59 ffff880037ce9bd0 ffffffff8109b809
May 29 14:56:02 rhel6-server-1314 kernel: ffff880037ce1af8 ffff880037ce9fd8 000000000000f4e8 ffff880037ce1af8
May 29 14:56:02 rhel6-server-1314 kernel: Call Trace:
May 29 14:56:02 rhel6-server-1314 kernel: [<ffffffffa00041fc>] ? dm_table_unplug_all+0x5c/0x100 [dm_mod]
...             rhel6-server-1314
May 29 14:56:02 rhel6-server-1314 kernel: [<ffffffff8100c140>] ? child_rip+0x0/0x20
May 29 14:56:02 rhel6-server-1314 kernel: INFO: task master:1674 blocked for more than 120 seconds.
May 29 14:56:02 rhel6-server-1314 kernel: "echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message.
May 29 14:56:02 rhel6-server-1314 kernel: master        D 0000000000000000     0  1674      1 0x00000080
May 29 14:56:02 rhel6-server-1314 kernel: ffff88003d669958 0000000000000086 ffff88003d669918 ffffffffa00041fc
May 29 14:56:02 rhel6-server-1314 kernel: 0000000000000000 ffff880002216028 ffff880002215fc0 ffff88003fac2b78
May 29 14:56:02 rhel6-server-1314 kernel: ffff88003fac30f8 ffff88003d669fd8 000000000000f4e8 ffff88003fac30f8
May 29 14:56:02 rhel6-server-1314 kernel: Call Trace:
May 29 14:56:02 rhel6-server-1314 kernel: [<ffffffffa00041fc>] ? dm_table_unplug_all+0x5c/0x100 [dm_mod]
...             rhel6-server-1314
May 29 14:56:02 rhel6-server-1314 kernel: [<ffffffff8100b0f2>] system_call_fastpath+0x16/0x1b
May 29 14:56:02 rhel6-server-1314 kernel: INFO: task pickup:6197 blocked for more than 120 seconds.
May 29 14:56:02 rhel6-server-1314 kernel: "echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message.
May 29 14:56:02 rhel6-server-1314 kernel: pickup        D 0000000000000000     0  6197   1674 0x00000080
May 29 14:56:02 rhel6-server-1314 kernel: ffff88003da95968 0000000000000086 ffff88003da95928 ffffffffa00041fc
May 29 14:56:02 rhel6-server-1314 kernel: ffff88003da95938 ffff8800022128a0 ffff88003da95908 ffffffff81127ed0
May 29 14:56:02 rhel6-server-1314 kernel: ffff88003d90da78 ffff88003da95fd8 000000000000f4e8 ffff88003d90da78
May 29 14:56:02 rhel6-server-1314 kernel: Call Trace:
May 29 14:56:02 rhel6-server-1314 kernel: [<ffffffffa00041fc>] ? dm_table_unplug_all+0x5c/0x100 [dm_mod]
...             rhel6-server-1314
May 29 14:56:02 rhel6-server-1314 kernel: [<ffffffff8100b0f2>] system_call_fastpath+0x16/0x1b
May 29 14:56:02 rhel6-server-1314 kernel: mptscsih: ioc0: attempting task abort! (sc=ffff880037bfd280)
May 29 14:56:02 rhel6-server-1314 kernel: sd 2:0:0:0: [sda] CDB: Write(10): 2a 00 03 14 e8 d0 00 00 18 00
May 29 14:56:02 rhel6-server-1314 kernel: mptscsih: ioc0: WARNING - Issuing Reset from mptscsih_IssueTaskMgmt!! doorbell=0x24000000
May 29 14:56:02 rhel6-server-1314 kernel: mptscsih: ioc0: task abort: SUCCESS (rv=2002) (sc=ffff880037bfd280)
May 29 14:56:02 rhel6-server-1314 kernel: scsi target2:0:0: Beginning Domain Validation
May 29 14:56:02 rhel6-server-1314 kernel: scsi target2:0:0: Domain Validation skipping write tests
May 29 14:56:02 rhel6-server-1314 kernel: scsi target2:0:0: Ending Domain Validation
May 29 14:56:02 rhel6-server-1314 kernel: scsi target2:0:0: FAST-40 WIDE SCSI 80.0 MB/s ST (25 ns, offset 127)

私の質問:

  1. 誰かがこれを引き起こしているものを知っていますか?
  2. そうでない場合は、他にどこで手がかりを探す必要がありますか?
  3. 最後に、次にボリュームのサイズ変更を行う必要があるときに、これを軽減する方法を知っている人はいますか?
4

ただのI/Oタイムアウトだったと思います。

リモートNFSデータストア上のLinuxVMでこのような問題が発生しました。 NFSは遅すぎたため、一部のLinux VMはディスクを読み取り専用モードに切り替えました(したがって、応答を停止しました)。おそらく、サイズ変更中にNFSデータストアが過負荷になり、これが問題を引き起こしました。 Linux VMは再起動後に正常に動作しますか?

このような問題を回避し、LinuxゲストのI/Oパフォーマンスをわずかに向上させるには、すべてのゲストのI/Oスケジューラを「noop」または「deadline」に切り替えてみてください。

http://kb.vmware.com/selfservice/microsites/search.do?language=en_US&cmd=displayKC&externalId=2011861

私の場合、「スケジューラーの修正」があっても、最もロードされたLinuxゲストでこのようなタイムアウトの問題が週に1回発生しました。これを解決するために、NFSからiSCSIに切り替え(「rsize」、「wsize」、MTUなどのNFS設定を最適化することもできますが、私の場合はまだ十分ではありません)、I /を削減しようとしました。可能な限りゲストのO操作。

4
Andrey Sapegin

これがNetApp(またはその他のNFSサーバー)の場合は、 ESXiホスト構成のNFSベストプラクティス であることを確認してください。 =適切に配置されています。

NFS展開の場合、NFSハートビートとタイムアウトの設定を常に調整します。それはあなたの場合に当てはまるかもしれません。ユニットの具体的な推奨事項については、ストレージエンジニアに確認してください。

1
ewwhite