中央サーバーからのNFSマウントポイントを持つノードを持つLinuxクラスターがあります(実際、ノードはディスクレスで、PXE経由で起動されます)。ノードからのNFSマウントポイントで何らかのアクティビティを行った後、NFSが大幅にスローダウンするようです。 sshログインには数分かかり、nfs共有上の一部のファイルに依存するプログラムの起動には数分かかる、などです。
サーバーのnfsサービスを再起動するか、問題のあるノードを再起動すると、問題が短期間解決しますが、すぐに再び表示されます。 (両方を行うと少し長くなるようです)
サーバーとノードは、Linuxカーネル3.10.0-693.el7.x86_64 x86_64のCentOS 7.4で実行され、NFSv4が使用されます。ストレージは、RAID10(/ dev/sda)としてバンドルされている4つのHDDで構成されています。サーバーとノード間のネットワーク接続は、それぞれ1GBit/sであり、これまでにドロップされたパケットの証拠はありません。
以前の活動に依存するNFSの非常に遅い反応の理由は何ですか?
ファイルシステムの反応が遅い場合、ノード上のnfsstatの出力が短くなると、次のようになります。
クライアントRPC統計:
通話|再トランス| authrefrsh
44154157 | 0 | 44154258クライアントNFS v4:
null |読む|書く|コミット|開く| open_conf
0 0%| 58125 0%| 422038 1%| 6846 0%| 139899 0%| 0 0%open_noat | open_dgrd |閉じる| setattr | fsinfo |更新する
30775986 95%| 144 0%| 70464 0%| 2639 0%| 9 0%| 0
Nfsiostatの出力は(高速nfsの場合)次のようになります。
op/s rpc bklog
3596.86 0.00読み取り:ops/s | kB/s | kB/op |平均RTT再転送(ミリ秒)|平均実行(ミリ秒)
0.224 | 0.289 | 1.292 | 0(0.0%)0.441 | 1.151書き込み:ops/s | kB/s | kB/op |再トランス|平均RTT(ミリ秒)|平均実行(ミリ秒)
33.837 | 47.329 | 1.399 | 0(0.0%)| 0.452 | 1.406
Nfsiostatの出力は次のようになります(遅いnfsの場合):
op/s | rpc bklog 183.75 | 0.00
読み取り:ops/s | kB/s | kB/op |再トランス|平均RTT(ミリ秒)|平均実行(ミリ秒)
0.012 | 1.158 | 99.426 | 0(0.0%)| 2.708 | 16.656書き込み:ops/s | kB/s | kB/op |平均RTT再転送(ミリ秒)|平均実行(ミリ秒)
0.295 | 1.882 | 6.387 | 2(0.0%)| 0.448 | 0.560
ここでは、はるかに低いops/sおよびより高いkB/opおよびavg exe期間が示されています。
中央サーバー上のiostat(すべてが正常に機能する場合):
Linux 3.10.0-693.el7.x86_64 09/27/2019 _x86_64_(4 CPU)
avg-cpu:%user%Nice%system%iowait%steal%idle
0.48 0.00 0.37 0.02 0.00 99.12デバイス:tps kB_read/s kB_wrtn/s kB_read kB_wrtn
sdb 10.83 40.61 67.55 9423785 15673740
sda 0.71 5.67 2.54 1315496 590208
sdc 10.47 18.96 67.55 4398709 15673740
md127 0.00 0.12 0.00 27241 80
md126 10.83 59.42 66.92 13787337 15526832
md125 0.00 0.01 0.00 2228 0
すべてが遅い場合も同じです(ただし、大きな違いはありません)。
Linux 3.10.0-693.el7.x86_64 2019/10/14 _x86_64_(4 CPU)
avg-cpu:%user%Nice%system%iowait%steal%idle
2.94 0.00 1.03 0.01 0.00 96.02デバイス:tps kB_read/s kB_wrtn/s kB_read kB_wrtn
sdb 15.05 261.13 52.53 449712785 90460908
sda 0.54 7.23 35.45 12443668 61054912
sdc 14.97 257.76 52.53 443917089 90460908
md127 0.00 0.02 0.00 27241 112
md126 11.57 8.68 51.72 14953949 89075284
md125 0.00 0.00 0.00 2228 8
さらに情報が必要な場合は教えてください。
私が最初に考えたのは、 iostatsをチェックする 後、キャッシュの問題のように聞こえるようになることです。