'|に対応する標準のマルチコアがあるかどうかを確認します並べ替え| uniq -c | sort -n 'コマンド?
下 プロシージャを使用できることを知っています
split -l5000000 data.tsv '_tmp';
ls -1 _tmp* | while read FILE; do sort $FILE -o $FILE & done;
sort -m _tmp* -o data.tsv.sorted
しかし、それは少し圧倒的な味です。
これは私にとっては速いです。 YMMV(間違いなく重複の数に依存します):
parallel --lb --pipepart --block 15m -a /tmp/big.file 'sort | uniq -c' |
awk '{ count[$2] += $1 } END { for(elem in count) print count[elem], elem }' |
sort -n