サイズに従ってファイルを再帰的にソートする

Question

フォルダー内で最大のファイルを見つける必要があります。
フォルダを再帰的にスキャンして、コンテンツをサイズでソートするにはどうすればよいですか？

ls -R -Sを使用してみましたが、これにはディレクトリもリストされます。
findも使用してみました。

slm · Accepted Answer

duだけでもこれを行うことができます。安全のため、私はこのバージョンのduを使用しています。

$ du --version du (GNU coreutils) 8.5

アプローチ：

$ du -ah ..DIR.. | grep -v "/$" | sort -rh

アプローチの内訳

コマンドdu -ah DIRは、指定されたディレクトリDIR内のすべてのファイルとディレクトリのリストを生成します。 -hは、人間が読めるサイズを生成します。それらが不要な場合は、そのスイッチをドロップします。出力量を制限するためだけにhead -6を使用しています！

$ du -ah ~/Downloads/ | head -6 4.4M /home/saml/Downloads/Kodak_W820_wireless_frame/W820_W1020_WirelessFrames_exUG_GLB_en.pdf 624K /home/saml/Downloads/Kodak_W820_wireless_frame/easyshare_w820.pdf 4.9M /home/saml/Downloads/Kodak_W820_wireless_frame/W820_W1020WirelessFrameExUG_GLB_en.pdf 9.8M /home/saml/Downloads/Kodak_W820_wireless_frame 8.0K /home/saml/Downloads/bugs.xls 604K /home/saml/Downloads/netgear_gs724t/GS7xxT_HIG_5Jan10.pdf

最小から最大に並べ替えるのに十分なほど簡単です。

$ du -ah ~/Downloads/ | sort -h | head -6 0 /home/saml/Downloads/apps_archive/monitoring/nagios/nagios-check_sip-1.3/usr/lib64/nagios/plugins/check_ldaps 0 /home/saml/Downloads/data/elasticsearch/nodes/0/indices/logstash-2013.04.06/0/index/write.lock 0 /home/saml/Downloads/data/elasticsearch/nodes/0/indices/logstash-2013.04.06/0/translog/translog-1365292480753 0 /home/saml/Downloads/data/elasticsearch/nodes/0/indices/logstash-2013.04.06/1/index/write.lock 0 /home/saml/Downloads/data/elasticsearch/nodes/0/indices/logstash-2013.04.06/1/translog/translog-1365292480946 0 /home/saml/Downloads/data/elasticsearch/nodes/0/indices/logstash-2013.04.06/2/index/write.lock

それを逆に、最大から最小に：

$ du -ah ~/Downloads/ | sort -rh | head -6 10G /home/saml/Downloads/ 3.8G /home/saml/Downloads/audible/audio_books 3.8G /home/saml/Downloads/audible 2.3G /home/saml/Downloads/apps_archive 1.5G /home/saml/Downloads/digital_blasphemy/db1440ppng.Zip 1.5G /home/saml/Downloads/digital_blasphemy

ディレクトリは表示せず、ファイルのみを表示します。

$ du -ah ~/Downloads/ | grep -v "/$" | sort -rh | head -6 3.8G /home/saml/Downloads/audible/audio_books 3.8G /home/saml/Downloads/audible 2.3G /home/saml/Downloads/apps_archive 1.5G /home/saml/Downloads/digital_blasphemy/db1440ppng.Zip 1.5G /home/saml/Downloads/digital_blasphemy 835M /home/saml/Downloads/apps_archive/cad_cam_cae/salome/Salome-V6_5_0-LGPL-x86_64.run

最小から最大までのリストが必要で、上位6つの問題のファイルが必要な場合は、並べ替えスイッチを逆にして（-r）をドロップし、tail -6の代わりにhead -6を使用できます。

$ du -ah ~/Downloads/ | grep -v "/$" | sort -h | tail -6 835M /home/saml/Downloads/apps_archive/cad_cam_cae/salome/Salome-V6_5_0-LGPL-x86_64.run 1.5G /home/saml/Downloads/digital_blasphemy 1.5G /home/saml/Downloads/digital_blasphemy/db1440ppng.Zip 2.3G /home/saml/Downloads/apps_archive 3.8G /home/saml/Downloads/audible 3.8G /home/saml/Downloads/audible/audio_books

terdon · Answer

現在のディレクトリとそのサブディレクトリ内のすべてのファイルを検索し、サイズに基づいて（パスを考慮せずに）リストし、ファイル名に改行文字が含まれていないと想定し、GNU = find、これを行うことができます：

find . -type f -printf "%s	%p
" | sort -n

GNUシステム上のman findから：

 -printf format True; print format on the standard output, interpreting `\' escapes and `%' directives. Field widths and precisions can be specified as with the `printf' C function. Please note that many of the fields are printed as %s rather than %d, and this may mean that flags don't work as you might expect. This also means that the `-' flag does work (it forces fields to be left-aligned). Unlike -print, -printf does not add a newline at the end of the string. The escapes and directives are: %p File's name. %s File's size in bytes.

man sortから：

 -n, --numeric-sort compare according to string numerical value

kenorb · Answer

次のコマンドを試してください。

ls -1Rhs | sed -e "s/^ *//" | grep "^[0-9]" | sort -hr | head -n20

現在のディレクトリ内の上位20個の最大ファイルを再帰的にリストします。

注：オプション-h for sortはOSX/BSDでは使用できないため、sortからcoreutilsを（たとえばbrewを介して）インストールし、ローカルに適用する必要があります。 PATHへのbinパス、例えば.

export PATH="/usr/local/opt/coreutils/libexec/gnubin:$PATH" # Add a "gnubin" for coreutils.

または、次を使用します。

ls -1Rs | sed -e "s/^ *//" | grep "^[0-9]" | sort -nr | head -n20

最大のディレクトリにはduを使用します。例：

du -ah . | sort -rh | head -20

または：

du -a . | sort -rn | head -20

Brad Parks · Answer

これにより、すべてのファイルが再帰的に検索され、サイズ順に並べ替えられます。すべてのファイルサイズをKB単位で出力し、切り捨てて0 KBのファイルが表示されるようにしますが、私の用途には十分近く、OSXで動作します。

find . -type f -print0 | xargs -0 ls -la | awk '{print int($5/1000) " KB\t" $9}' | sort -n -r -k1

find . -type f -print0 | xargs -0 ls -la | awk '{print int($5/1000) " KB " $9}' | sort -n -r -k1

St&#233;phane Chazelas · Answer

zshを使用すると、（ls -l出力のサイズ列のような見かけのサイズに関して、ディスク使用量ではなく）最大のファイルが次のように見つかります。

ls -ld -- **/*(DOL[1])

最大の6つについて：

ls -ld -- **/*(DOL[1,6])

これらをファイルサイズで並べ替えるには、lsの-Sオプションを使用できます。一部のls実装には、リストを並べ替えないようにlsの-Uオプションもあります（ここではzshでサイズ順に並べ替えられているため）。

mprcela · Answer

ディレクトリをスキップするMac/Linuxのシンプルなソリューション：

find . -type f -exec du -h {} \; | sort -h

hanxue · Answer

BSDまたはOSXの同等のものは

$ du -ah simpl | sort -dr | head -6

Dhaval H. Nena · Answer

昇順のサイズのフォルダーを作成するには、並べ替えオプションを使用して以下のコマンドを試してください

du -sh * | sort -sh

Luke Pafford · Answer

これは、さまざまな理由（ディレクトリで最新のバックアップを見つけるのが好き）のために信じられないほど一般的なニーズであり、驚くほど単純なタスクです。

Find、xargs、stat、tail、awk、sortの各ユーティリティを使用するLinuxソリューションを提供します。

ほとんどの人がいくつかのユニークな答えを提供していますが、ファイル名を適切に処理し、ユースケースを簡単に変更できるため（統計の変更と引数の並べ替え）、私は私のほうを好みます。

Windowsでもこの機能を使用できるようにするPythonソリューションを提供します

Linuxコマンドラインソリューション

ディレクトリからファイルのみのリスト全体をファイルサイズでソートして再帰的に返す

find . -type f -print0 | xargs -0 -I{} stat -c '%s %n' {} | sort -n

以前と同じですが、今回は最大のファイルを返します。

# Each utility is split on a new line to help # visualize the concept of transforming our data in a stream find . -type f -print0 | xargs -0 -I{} stat -c '%s %n' {} | sort -n | tail -n 1 | awk '{print $2}'

同じパターンですが、最大ではなく最新のファイルを選択します

# (Notice only the first argument of stat changed for new functionality!) find . -type f -print0 | xargs -0 -I{} stat -c '%Y %n' {} | sort -n | tail -n 1 | awk '{print $2}'

説明：

find：現在のディレクトリからすべてのファイルを再帰的に検索し、それらをnull文字で出力します
xargs：標準入力から提供された引数を使用してコマンドを実行するユーティリティ。出力のすべての行について、そのファイルに対してstatユーティリティを実行します
stat：Statは、非常に多くの使用例がある、万能の素晴らしいコマンドです。 2つの列を出力しています。最初の列はブロックサイズ（％s）、2番目の列はファイル名（％n）です。
sort：数値スイッチで結果をソートします。最初の引数は整数なので、結果は適切にソートされます
tail：出力の最後の行のみを選択します（リストがソートされているため、これは最大のファイルです！）
awk：ファイル名を含み、再帰ディレクトリ内の最大のファイルである2番目の列を選択します。

Pythonソリューション

#!/usr/bin/env python import os, sys files = list() for dirpath, dirname, filenames in os.walk(sys.argv[1]): for filename in filenames: realpath = os.path.join(dirpath, filename) files.append(realpath) files_sorted_by_size = sorted(files, key = lambda x: os.stat(x).st_size) largest_file = files_sorted_by_size[-1] print(largest_file)

このスクリプトは説明に少し時間がかかりますが、基本的にそれをスクリプトとして保存すると、コマンドラインで指定された最初の引数を検索し、そのディレクトリで最大のファイルを返します。スクリプトはエラーチェックを行いませんが、Pythonでこれをどのように処理するかがわかるはずです。これにより、プラットフォームに依存しない、この問題を解決する方法が得られます。

crizCraig · Answer

この答えの変種は同様の質問から

find . -type f -exec du -ah {} + | sort -rh | more