いくつかのテストが正常に完了した場合にのみ開始したい手順があります。
私が必要とする1つのテストは、すべてのNFSマウントが正常に機能していることです。
力ずくのアプローチよりもうまくやれるでしょうか:
mount | sed -n "s/^.* on \(.*\) type nfs .*$/\1/p" |
while read mount_point ; do
timeout 10 ls $mount_point >& /dev/null || echo "stale $mount_point" ;
done
ここで、timeout
は、コマンドをバックグラウンドで実行し、制限時間より前にSIGCHLD
がキャッチされなかった場合、指定された時間後にコマンドを強制終了し、成功/失敗を返すユーティリティです。明白な方法。
英語:mount
の出力を解析し、すべてのNFSマウントポイントをチェックします(タイムアウトによって制限されます)。オプションで(上記のコードにはありません)最初の古いマウントで壊れます。
Cプログラムを作成して、ESTALE
を確認できます。
#include <sys/types.h>
#include <sys/stat.h>
#include <unistd.h>
#include <iso646.h>
#include <errno.h>
#include <stdio.h>
#include <stdlib.h>
int main(){
struct stat st;
int ret;
ret = stat("/mnt/some_stale", &st);
if(ret == -1 and errno == ESTALE){
printf("/mnt/some_stale is stale\n");
return EXIT_SUCCESS;
} else {
return EXIT_FAILURE;
}
}
私の同僚があなたの脚本に出くわしました。これは「ブルートフォース」アプローチを回避するものではありませんが、Bashにいる可能性がある場合は次のようになります。
while read _ _ mount _; do
read -t1 < <(stat -t "$mount") || echo "$mount timeout";
done < <(mount -t nfs)
mount
は、NFSマウントを直接リストできます。 read -t
(シェル組み込み)はコマンドをタイムアウトできます。 stat -t
(簡潔な出力)はまだls
*のようにハングします。 ls
は不要な出力を生成し、巨大な/遅いディレクトリリストで誤検知のリスクがあり、アクセスするためのアクセス許可が必要です。これがない場合も誤検知が発生します。
while read _ _ mount _; do
read -t1 < <(stat -t "$mount") || lsof -b 2>/dev/null|grep "$mount";
done < <(mount -t nfs)
ハングの原因を特定するために、lsof -b
(非ブロッキングなのでハングしません)とともに使用しています。
ポインタをありがとう!
test -d
(シェル組み込み)もstat
(標準の外部)の代わりに機能しますが、read -t
は、タイムアウトせず、入力行を読み取る場合にのみ成功を返します。 。 test -d
はstdoutを使用しないため、(( $? > 128 ))
のエラーレベルチェックが必要になります。読みやすさを向上させる価値はありません、IMO。しばらく時間がかかりましたが、Pythonで機能することがわかりました。
_import signal, os, subprocess
class Alarm(Exception):
pass
def alarm_handler(signum, frame):
raise Alarm
pathToNFSMount = '/mnt/server1/' # or you can implement some function
# to find all the mounts...
signal.signal(signal.SIGALRM, alarm_handler)
signal.alarm(3) # 3 seconds
try:
proc = subprocess.call('stat '+pathToNFSMount, Shell=True, stderr=subprocess.PIPE, stdout=subprocess.PIPE)
stdoutdata, stderrdata = proc.communicate()
signal.alarm(0) # reset the alarm
except Alarm:
print "Oops, taking too long!"
_
備考:
別のスキームを使用することもできます。
os.fork()
およびos.stat()
フォークが終了したかどうかを確認します。タイムアウトした場合は、フォークを強制終了できます。 time.time()
などを操作する必要があります。
状況によってはハングする以前の回答に加えて、このスニペットはすべての適切なマウントをチェックし、シグナルKILLで強制終了し、CIFSでもテストされます。
grep -v tracefs /proc/mounts | cut -d' ' -f2 | \
while read m; do \
timeout --signal=KILL 1 ls -d $m > /dev/null || echo "$m"; \
done
ファイルシステムが古くなっているためにコマンドが終了するのを待ってもかまわない場合は、ESTALEをチェックするCプログラムを作成することをお勧めします。 「タイムアウト」オプションを実装する場合、(Cプログラムで)それを実装するために私が見つけた最善の方法は、ファイルを開こうとする子プロセスをフォークすることです。次に、子プロセスが割り当てられた時間内にファイルシステム内のファイルの読み取りを正常に終了したかどうかを確認します。
これを行うためのコンセプトCプログラムの小さな証明を次に示します。
#include <stdlib.h>
#include <stdio.h>
#include <stdint.h>
#include <unistd.h>
#include <errno.h>
#include <fcntl.h>
#include <sys/wait.h>
void readFile();
void waitForChild(int pid);
int main(int argc, char *argv[])
{
int pid;
pid = fork();
if(pid == 0) {
// Child process.
readFile();
}
else if(pid > 0) {
// Parent process.
waitForChild(pid);
}
else {
// Error
perror("Fork");
exit(1);
}
return 0;
}
void waitForChild(int child_pid)
{
int timeout = 2; // 2 seconds timeout.
int status;
int pid;
while(timeout != 0) {
pid = waitpid(child_pid, &status, WNOHANG);
if(pid == 0) {
// Still waiting for a child.
sleep(1);
timeout--;
}
else if(pid == -1) {
// Error
perror("waitpid()");
exit(1);
}
else {
// The child exited.
if(WIFEXITED(status)) {
// Child was able to call exit().
if(WEXITSTATUS(status) == 0) {
printf("File read successfully!\n");
return;
}
}
printf("File NOT read successfully.\n");
return;
}
}
// The child did not finish and the timeout was hit.
kill(child_pid, 9);
printf("Timeout reading the file!\n");
}
void readFile()
{
int fd;
fd = open("/path/to/a/file", O_RDWR);
if(fd == -1) {
// Error
perror("open()");
exit(1);
}
else {
close(fd);
exit(0);
}
}
私が書いた https://github.com/acdha/mountstatus これは、UndeadKernelが述べたのと同様のアプローチを使用します。これは、最も堅牢なアプローチであることがわかりました。これは、マウントされたすべてのマウントを定期的にスキャンするデーモンです。ファイルシステムは、最上位ディレクトリを一覧表示しようとする子プロセスをフォークし、特定のタイムアウトで応答に失敗した場合はSIGKILL
し、成功と失敗の両方をsyslogに記録します。これにより、特定のクラスのエラーのタイムアウトをトリガーしない特定のクライアント実装(古いLinuxなど)、部分的に応答するが、たとえばlistdir
などの実際の呼び出しには応答しません。
私はそれらを公開していませんが、含まれているMakefileは fpm
を使用して、Upstartスクリプトでrpmおよびdebパッケージをビルドします。
別の方法として、シェルスクリプトを使用します。私にとってはうまくいきます:
#!/bin/bash
# Purpose:
# Detect Stale File handle and remove it
# Script created: July 29, 2015 by Birgit Ducarroz
# Last modification: --
#
# Detect Stale file handle and write output into a variable and then into a file
mounts=`df 2>&1 | grep 'Stale file handle' |awk '{print ""$2"" }' > NFS_stales.txt`
# Remove : ‘ and ’ characters from the output
sed -r -i 's/://' NFS_stales.txt && sed -r -i 's/‘//' NFS_stales.txt && sed -r -i 's/’//' NFS_stales.txt
# Not used: replace space by a new line
# stales=`cat NFS_stales.txt && sed -r -i ':a;N;$!ba;s/ /\n /g' NFS_stales.txt`
# read NFS_stales.txt output file line by line then unmount stale by stale.
# IFS='' (or IFS=) prevents leading/trailing whitespace from being trimmed.
# -r prevents backslash escapes from being interpreted.
# || [[ -n $line ]] prevents the last line from being ignored if it doesn't end with a \n (since read returns a non-zero exit code when it encounters EOF).
while IFS='' read -r line || [[ -n "$line" ]]; do
echo "Unmounting due to NFS Stale file handle: $line"
umount -fl $line
done < "NFS_stales.txt"
#EOF