Node.js：ファイル内の行数を数える

Question

30MB〜10GBの範囲の大きなテキストファイルがあります。 Node.jsを使用してファイル内の行数をカウントするにはどうすればよいですか？

次の制限があります。

ファイル全体をメモリに書き込む必要はありません
タスクを実行するために子プロセスは必要ありません

Andrey Sidorov · Accepted Answer

wcを使用しないソリューション：

var i; var count = 0; require('fs').createReadStream(process.argv[2]) .on('data', function(chunk) { for (i=0; i < chunk.length; ++i) if (chunk[i] == 10) count++; }) .on('end', function() { console.log(count); });

遅くなりますが、期待するほどではありません-node.jsの読み込みと起動時間を含む140M +ファイルで0.6秒

>time node countlines.js video.mp4 619643 real 0m0.614s user 0m0.489s sys 0m0.132s >time wc -l video.mp4 619643 video.mp4 real 0m0.133s user 0m0.108s sys 0m0.024s >wc -c video.mp4 144681406 video.mp4

Menztrual · Answer

コメントがwcの使用を示唆しているように、これを行うことができます

var exec = require('child_process').exec; exec('wc /path/to/file', function (error, results) { console.log(results); });

Emil Vikstr&#246;m · Answer

indexOf を使用して、VMで改行を見つけることができます。

function countFileLines(filePath){ return new Promise((resolve, reject) => { let lineCount = 0; fs.createReadStream(filePath) .on("data", (buffer) => { let idx = -1; lineCount--; // Because the loop will run once for idx=-1 do { idx = buffer.indexOf(10, idx+1); lineCount++; } while (idx !== -1); }).on("end", () => { resolve(lineCount); }).on("error", reject); }); };

この解決策は、.indexOfを使用して最初の改行の位置を見つけることです。 lineCountをインクリメントし、次の位置を見つけます。 .indexOfの2番目のパラメーターは、改行の検索を開始する場所を示します。このようにして、バッファの大きな部分を飛び越えています。 whileループは、改行ごとに1回ずつ実行されます。

Nodeランタイムに、より低いレベルで実装され、より高速なはずの検索を実行させます。

私のシステムでは、これは大きなファイル（111 MB）のバッファー長に対してforループを実行する場合の約2倍の速度です。

undoZen · Answer

iojs 1.5.0以降、Buffer#indexOf()メソッドがあり、それを使用してAndrey Sidorovの答えと比較します。

ubuntu@server:~$ wc logs 7342500 27548750 427155000 logs ubuntu@server:~$ time wc -l logs 7342500 logs real 0m0.180s user 0m0.088s sys 0m0.084s ubuntu@server:~$ nvm use node Now using node v0.12.1 ubuntu@server:~$ time node countlines.js logs 7342500 real 0m2.559s user 0m2.200s sys 0m0.340s ubuntu@server:~$ nvm use iojs Now using node iojs-v1.6.2 ubuntu@server:~$ time iojs countlines2.js logs 7342500 real 0m1.363s user 0m0.920s sys 0m0.424s ubuntu@server:~$ cat countlines.js var i; var count = 0; require('fs').createReadStream(process.argv[2]) .on('data', function(chunk) { for (i=0; i < chunk.length; ++i) if (chunk[i] == 10) count++; }) .on('end', function() { console.log(count); }); ubuntu@server:~$ cat countlines2.js var i; var count = 0; require('fs').createReadStream(process.argv[2]) .on('data', function(chunk) { var index = -1; while((index = chunk.indexOf(10, index + 1)) > -1) count++ }) .on('end', function() { console.log(count); }); ubuntu@server:~$

Jason Kim · Answer

Node 8以降を使用する場合、このasync/awaitパターンを使用できます

const util = require('util'); const exec = util.promisify(require('child_process').exec); async function fileLineCount({ fileLocation }) { const { stdout } = await exec(`cat ${fileLocation} | wc -l`); return parseInt(stdout); }; // Usage async someFunction() { const lineCount = await fileLineCount({ fileLocation: 'some/file.json' }); }

Dom Vinyard · Answer

count-lines-in-file というnpmモジュールがあります。私は小さな（<1000行）ファイルに使用してきましたが、これまでのところうまく機能しています。

Alan Viars · Answer

あまりネストしない別の方法を次に示します。

var fs = require('fs'); filePath = process.argv[2]; fileBuffer = fs.readFileSync(filePath); to_string = fileBuffer.toString(); split_lines = to_string.split("
"); console.log(split_lines.length-1);

ruchi gupta · Answer

var fs=require('fs'); filename=process.argv[2]; var data=fs.readFileSync(filename); var res=data.toString().split('
').length; console.log(res-1);`

Jeff Kilbride · Answer

IndexOf（）を使用することもできます。

var index = -1; var count = 0; while ((index = chunk.indexOf(10, index + 1)) > -1) count++;

David Dombrowsky · Answer

私が見つけた最良の解決策は、promises、async、awaitを使用することです。これは、約束の履行をどのように待つかの例でもあります。

#!/usr/bin/env node const fs = require('fs'); const readline = require('readline'); function main() { function doRead() { return new Promise(resolve => { var inf = readline.createInterface({ input: fs.createReadStream('async.js'), crlfDelay: Infinity }); var count = 0; inf.on('line', (line) => { console.log(count + ' ' + line); count += 1; }); inf.on('close', () => resolve(count)); }); } async function showRead() { var x = await doRead(); console.log('line count: ' + x); } showRead(); } main();