web-dev-qa-db-ja.com

NFSマウントでの「タッチ」操作中にハングする

192.0.2.3で openfiler 2.99NFS共有にマウントされた2つのNFSクライアントがあります。

  • 192.0.2.1は192.0.2.3:/mnt/nfs01/volnfs01/share01rw,noatime,nodiratime,hard,rsize=32768,wsize=32768,noacl,nocto,tcp,nfsvers=3でマウントします
  • 192.0.2.1は192.0.2.3:/mnt/nfs01/volnfs01/share02rw,noatime,nodiratime,hard,rsize=32768,wsize=32768,nfsvers=3,tcp,noacl,noctoでマウントします
  • 192.0.2.2は192.0.2.3:/mnt/nfs01/volnfs01/share02rw,noatime,nodiratime,hard,rsize=32768,wsize=32768,nfsvers=3,tcp,noacl,noctoでマウントします

touch壊れた

私の問題は192.0.2.2のNFSマウントにあります。そのマウントでファイルをタッチすると、プロセスが無期限にハングします... strace touch /mnt/share02/thisを使用して、ここまで到達しました...

rt_sigaction(SIGRTMIN, {0x3b71c05ae0, [], SA_RESTORER|SA_SIGINFO, 0x3b71c0f500}, NULL, 8) = 0
rt_sigaction(SIGRT_1, {0x3b71c05b70, [], SA_RESTORER|SA_RESTART|SA_SIGINFO, 0x3b71c0f500}, NULL, 8) = 0
rt_sigprocmask(SIG_UNBLOCK, [RTMIN RT_1], NULL, 8) = 0
getrlimit(RLIMIT_STACK, {rlim_cur=10240*1024, rlim_max=RLIM_INFINITY}) = 0
brk(0)                                  = 0xafb000
brk(0xb1c000)                           = 0xb1c000
open("/usr/lib/locale/locale-archive", O_RDONLY) = 3
fstat(3, {st_mode=S_IFREG|0644, st_size=99158576, ...}) = 0
mmap(NULL, 99158576, PROT_READ, MAP_PRIVATE, 3, 0) = 0x7fce244c0000
close(3)                                = 0
open("/mnt/share02/this", O_WRONLY|O_CREAT|O_NOCTTY|O_NONBLOCK, 0666
                                                                    ^^^ stops touching
                                                                     |
                                                                     |

別の端末からps -elfをチェックすると、プロセスが「D」状態であることがわかります。

[mpenning@Host192_0_2_2 ~]$ ps -elf | awk '$2=="D"'
0 D mpenning  8157  8032  0  80   0 - 26293 rpc_wa 09:59 pts/2    00:00:00 touch /mnt/share02/this
[mpenning@Host192_0_2_2 ~]$

showmountは問題を見つけていません...

[mpenning@Host192_0_2_2 ~]$ showmount -e 192.0.2.3
Export list for 192.0.2.3:
/mnt/nfs01/volnfs01/share01 192.0.2.2/255.255.255.255,192.0.2.1/255.255.255.255
/mnt/nfs01/volnfs01/share02 192.0.2.2/255.255.255.255,192.0.2.1/255.255.255.255
[mpenning@Host192_0_2_2 ~]$

NFSサービスのさまざまなステータス...

[mpenning@Host192_0_2_2 ~]$ service nfs status
rpc.svcgssd is stopped
rpc.mountd (pid 9168) is running...
nfsd (pid 9232 9231 9230 9229 9228 9227 9226 9225) is running...
rpc.rquotad (pid 9164) is running...
[mpenning@Host192_0_2_2 ~]$ service rpcbind status
rpcbind (pid  9088) is running...
[mpenning@Host192_0_2_2 ~]$ service nfslock status
rpc.statd (pid  9256) is running...
[mpenning@Host192_0_2_2 ~]$

ネットワーク構成(これは専用のlayer2 NFS VLANであるため、デフォルトのgwは必要ありません):

[mpenning@Host192_0_2_2 ~]$ Sudo cat /etc/sysconfig/network-scripts/ifcfg-eth1
DEVICE=eth1
NM_CONTROLLED=no
ONBOOT=yes
BOOTPROTO=none
IPADDR=192.0.2.2
NETMASK=255.255.255.0
DNS2=none
TYPE=Ethernet
GATEWAY=
DNS1=none
IPV6INIT=no
USERCTL=no
MTU=9000
[mpenning@Host192_0_2_2 ~]$

これはかなり厄介に見えます。私は192.0.2.2で次のことをしました:

  • すべてのNFSを再起動しました
  • init 6マシン
  • ping 192.0.2.3サーバーへの接続が維持されていることを確認します
  • チェックされたdmesg
  • チェック済みshowmount -e 192.0.2.3

これは権限の問題のように思えますが、ここからどこへ行くべきかわかりません...

192.0.2.2の192.0.2.3:/mnt/nfs01/volnfs01/share02のマウント上の任意のファイルを読み書きできるように、この問題を修正するにはどうすればよいですか?


touchは機能します

192.0.2.1から同じtouchコマンドを実行すると、すべて問題ありません...

rt_sigaction(SIGRTMIN, {0xb096e0, [], SA_SIGINFO}, NULL, 8) = 0
rt_sigaction(SIGRT_1, {0xb09b80, [], SA_RESTART|SA_SIGINFO}, NULL, 8) = 0
rt_sigprocmask(SIG_UNBLOCK, [RTMIN RT_1], NULL, 8) = 0
getrlimit(RLIMIT_STACK, {rlim_cur=10240*1024, rlim_max=RLIM_INFINITY}) = 0
uname({sys="Linux", node="Host192_0_2_1.localdomain.local", ...}) = 0
brk(0)                                  = 0x8d4d000
brk(0x8d6e000)                          = 0x8d6e000
open("/usr/lib/locale/locale-archive", O_RDONLY|O_LARGEFILE) = 3
fstat64(3, {st_mode=S_IFREG|0644, st_size=99158544, ...}) = 0
mmap2(NULL, 2097152, PROT_READ, MAP_PRIVATE, 3, 0) = 0xb7574000
close(3)                                = 0
open("/mnt/share02/this", O_WRONLY|O_CREAT|O_NOCTTY|O_NONBLOCK|O_LARGEFILE, 0666) = 3
dup2(3, 0)                              = 0
close(3)                                = 0
utimensat(0, NULL, NULL, 0)             = 0
close(0)                                = 0
close(1)                                = 0
close(2)                                = 0
exit_group(0)                           = ?

/etc/exports192.0.2.3から

[root@T1-Netfile01 backups]# head /etc/exports

# PLEASE DO NOT MODIFY THIS CONFIGURATION FILE!
#       This configuration file was autogenerated
#       by Openfiler. Any manual changes will be overwritten
#       Generated at: Fri Nov 8 9:35:39 CST 2013

/mnt/nfs01/volnfs01/share02 192.0.2.1/255.255.255.255(rw,anonuid=96,anongid=96,secure,root_squash,wdelay,sync)  192.0.2.2/255.255.255.255(rw,anonuid=96,anongid=96,secure,root_squash,wdelay,sync)

/mnt/nfs01/volnfs01/share01 192.0.2.1/255.255.255.255(rw,anonuid=96,anongid=96,secure,root_squash,wdelay,sync)  192.0.2.2/255.255.255.255(rw,anonuid=96,anongid=96,secure,root_squash,wdelay,sync)

[root@T1-Netfile01 backups]#
5
Mike Pennington

そして、/etc/exportsファイルのIPの順序を変更すると、どうなりますか? .2.2IPを1番目と2.1を2番目に配置します。

また、コマンドを使用して、エクスポートが何を示しているかを確認します。

$ showmount -e 192.0.2.3

/etc/exportsはフォーマットに非常にこだわることができます!

他に試すこと

  1. 私は通常、次のように/etc/exportsでホストを指定します。

    /cobbler/isos   192.168.1.0/24(rw,no_root_squash)
    

    したがって、ホストIPが1つの場合:

    /mnt/nfs01/volnfs01/share02 192.0.2.1/32(rw,anonuid=96,anongid=96,secure,root_squash,wdelay,sync)  192.0.2.2/32(rw,anonuid=96,anongid=96,secure,root_squash,wdelay,sync)
    /mnt/nfs01/volnfs01/share01 192.0.2.1/32(rw,anonuid=96,anongid=96,secure,root_squash,wdelay,sync)  192.0.2.2/32(rw,anonuid=96,anongid=96,secure,root_squash,wdelay,sync)
    
  2. nFS関連のサービス

    nfslockおよびその他の関連サービスが両方とも192.0.2.2で実行されていることを確認してください。

  3. ジャンボフレームを使用している場合は、ping -s <jumbo_mtu> 192.0.2.3が192.0.2.2以降で機能することを確認してください

3
slm