Luceneインデックスを含む一連のディレクトリがあります。各インデックスは、さまざまなファイルタイプの組み合わせです(拡張子によって区別されます)。例:
0/index/_2z6.frq
0/index/_2z6.fnm
..
1/index/_1sq.frq
1/index/_1sq.fnm
..
(それは約10の異なる拡張機能です)
ファイル拡張子ごとに合計を取得します。例:
.frq 21234
.fnm 34757
..
私はdu/awk/xargsのさまざまな組み合わせを試しましたが、これを正確に行うのは難しいことがわかりました。
与えられた拡張に対して、あなたは用途
find /path -name '*.frq' -exec ls -l {} \; | awk '{ Total += $5} END { print Total }'
そのタイプの合計ファイルサイズを取得します。
そしていくつかの考えの後
#!/bin/bash
ftypes=$(find . -type f | grep -E ".*\.[a-zA-Z0-9]*$" | sed -e 's/.*\(\.[a-zA-Z0-9]*\)$/\1/' | sort | uniq)
for ft in $ftypes
do
echo -n "$ft "
find . -name "*${ft}" -exec ls -l {} \; | awk '{total += $5} END {print total}'
done
見つかった各ファイルタイプのサイズをバイト単位で出力します。
Bash version4では、find
、ls
およびawk
を呼び出すだけで済みます。
declare -A ary
while IFS=$'\t' read name size; do
ext=${name##*.}
((ary[$ext] += size))
done < <(find . -type f -printf "%f\t%s\n")
for key in "${!ary[@]}"; do
printf "%s\t%s\n" "$key" "${ary[$key]}"
done
.
で分割された2列ごとの最後の部分(拡張子)が配列に保存されました。
#!/bin/bash
find . -type f -printf "%s\t%f\n" | awk '
{
split($2, ext, ".")
e = ext[length(ext)]
size[e] += $1
}
END{
for(i in size)
print size[i], i
}' | sort -n
次に、すべての拡張機能の合計サイズをバイト単位で取得します。
60055 gemspec
321991 txt
2075312 html
2745143 rb
13387264 gem
47196526 jar
多数のファイルを処理するための高速バージョンでIainのスクリプトを拡張します。
#!/bin/bash
ftypes=$(find . -type f | grep -E ".*\.[a-zA-Z0-9]*$" | sed -e 's/.*\(\.[a-zA-Z0-9]*\)$/\1/' | sort | uniq)
for ft in $ftypes
do
echo -ne "$ft\t"
find . -name "*${ft}" -exec du -bcsh '{}' + | tail -1 | sed 's/\stotal//'
done
これが解決策です:
find . -type f | grep -E ".*\.[a-zA-Z0-9]*$" | sed -e 's/.*\(\.[a-zA-Z0-9]*\)$/\1/' | sort | uniq -c | sort -n
この投稿に最初に投稿されたソリューション: ディレクトリ内のすべての拡張子とそれぞれのファイル数を取得
Crabを試してみてください( http://etia.co.uk/ )-SQLを使用してファイルシステムを照会できるコマンドラインユーティリティです。
質問に対する私のバージョンの回答:
#!/bin/bash
date > get_size.log
# Lists all files
find . -type f -printf "%s\t%f\n" | grep -E ".*\.[a-zA-Z0-9]*$" | sort -h | awk '
{
split($2, ext, ".")
e = ext[length(ext)]
# Checks that one extension could be found
if(length(e) < length($2)) {
# Check that file size are bigger than 0
if($i > 0) {
# Check that extension not are integer
if(!(e ~/^[0-9]+$/)) {
size[e] += $1
}
}
}
if(length(e) == length($2)) {
size["blandat"] += $1
}
}
END{
for(i in size)
print size[i], i
}' | sort -n >> get_size.log
echo
echo
echo The result are in file get_size.log
私はこの2つのコマンドを使用して解決しました:
FILES=$(find . -name '*.c')
stat -c %s ${FILES[@]} | awk '{ sum += $1 } END { print ".c" " " sum }'
MacOSの場合:
#!/bin/bash
for ft in $(find "$1/" -type f | { export GREP_OPTIONS="--color=never" && grep -E ".*\.[a-zA-Z0-9]*$"; } | sed -E 's/.*(\.[^\.]*)$/\1/' | sort | uniq)
do
find "$1/" -name "*$ft" -exec stat -f%z {} \; | awk '{total += $1} END {printf "%s\t",total}'
echo " $ft"
done | sort -hr
$ bash temp.sh assets
1622995 .monstertype
1279175 .frames
756855 .npctype
706087 .projectile
573611 .head