数値のサフィックスを使用してファイルを分割する方法

Question

次のコマンドを使用してファイルを分割しています。 50,000行ごとに分割し、4桁の数値サフィックスを使用する必要があります。ファイルは約1億4,000万行です。

split -d -l -n 4 50000 domains.xml domains_

しかし、それを実行すると、次のエラーが発生します。

split: -n: invalid number of lines Try `split --help' for more information.

これに対する正しいコマンドは何ですか？

Steve · Accepted Answer

awkを使用します。これにより、出力ファイルとファイル名をより細かく制御できます。それもただ迅速に尋ねる必要があります。 100行のファイルを20行のブロックに分割する方法は次のとおりです。

awk 'NR%20==1 { file = FILENAME "_" sprintf("%04d", NR+19) } { print > file }' domains.xml

これにより、次のようなファイルが作成されます。

file_0020 file_0040 file_0060 file_0080 file_0100

適宜調整してください。 HTH。

Jonathan Leffler · Answer

GNU splitからの主要なヘルプなので、

Usage: /usr/gnu/bin/split [OPTION]... [INPUT [PREFIX]] Output fixed-size pieces of INPUT to PREFIXaa, PREFIXab, ...; default size is 1000 lines, and default PREFIX is 'x'. With no INPUT, or when INPUT is -, read standard input. Mandatory arguments to long options are mandatory for short options too. -a, --suffix-length=N generate suffixes of length N (default 2) --additional-suffix=SUFFIX append an additional SUFFIX to file names. -b, --bytes=SIZE put SIZE bytes per output file -C, --line-bytes=SIZE put at most SIZE bytes of lines per output file -d, --numeric-suffixes[=FROM] use numeric suffixes instead of alphabetic. FROM changes the start value (default 0). -e, --elide-empty-files do not generate empty output files with '-n' --filter=COMMAND write to Shell COMMAND; file name is $FILE -l, --lines=NUMBER put NUMBER lines per output file -n, --number=CHUNKS generate CHUNKS output files. See below -u, --unbuffered immediately copy input to output with '-n r/...' --verbose print a diagnostic just before each output file is opened --help display this help and exit --version output version information and exit

オプションを少し再編成する必要があるようです。

split -a 4 -d -l 50000 domains.xml domains_

Serge Chastel · Answer

（マンページから、GNU coreutils 8.21）必要なものは、-n /-ではなく、-a /-suffix-length = N（長さNのサフィックスを生成する（デフォルト2））のようです-number = CHUNKS（CHUNKS出力ファイルを生成）

split -d -l 50000 -a 4 domains.xml domains_

そして、あなたは得るはずです：domains_0000、domains_0001 ...

split -d -l 50000 -a 4 domains.xml domains_

そして、あなたは得るはずです：domains_0000、domains_0001 ...