web-dev-qa-db-ja.com

巨大なファイルの改行を含む文字列を置き換えます

ややメモリ効率の良い方法で文字列を「バイナリ」検索/置換する非ラインベースのツールを知っている人はいますか?this質問 も。

これが行うように見えるものと同様に処理したい+ 2GBのテキストファイルがあります。

sed -e 's/>\n/>/g'

つまり、>の後にある改行をすべて削除し、他の場所は削除しないようにして、tr -dを除外します。

このコマンド(-- 同様の質問の答え から取得)はcouldn't re-allocate memoryで失敗します。

sed --unbuffered ':a;N;$!ba;s/>\n/>/g'

では、Cに頼らずに他の方法はありますか?私はPerlが嫌いですが、この場合は例外としても構わないでしょう:-)

データに含まれていない文字が確実にわからないので、\nを一時的に別の文字に置き換えることは、できれば避けたいものです。

いいアイデアはありますか?

17
MattBianco

これはPerlでは本当に簡単です。嫌いにしないでください!

Perl -i.bak -pe 's/>\n/>/' file

説明

  • -i:ファイルを編集して、元のfile.bakのバックアップを作成します。バックアップが必要ない場合は、代わりにPerl -i -peを使用してください。
  • -pe:入力ファイルを1行ずつ読み取り、-eとして指定されたスクリプトを適用した後、各行を出力します。
  • s/>\n/>/sedと同様の置換。

そして、これがawkアプローチです:

awk  '{if(/>$/){printf "%s",$0}else{print}}' file2 
14
terdon

Perlソリューション:

$ Perl -pe 's/(?<=>)\n//'

説明

  • s///は文字列置換に使用されます。
  • (?<=>)は後読みパターンです。
  • \nは改行に一致します。

パターン全体は、その前に>があるすべての改行を削除することを意味します。

7
cuonglm

これはどう:

sed ':loop
  />$/ { N
    s/\n//
    b loop
  }' file

GNU sedの場合は、-u--unbuffered)質問ごとのオプション。 GNU sedもシンプルなワンライナーとしてこれに満足しています:

sed ':loop />$/ { N; s/\n//; b loop }' file
3
Graeme

sedは、最後の改行なしで出力を発行する方法を提供しません。 Nを使用するアプローチは基本的には機能しますが、不完全な行をメモリに格納するため、行が長くなりすぎると失敗する可能性があります(sedインプリメンテーションは通常、極端に長い行を処理するように設計されていません)。

代わりにawkを使用できます。

awk '{if (/<$/) printf "%s", $0; else print}'

別の方法は、trを使用して、改行文字を「退屈な」頻繁に発生する文字と交換することです。ここでスペースが機能する可能性があります。データのすべての行または少なくとも行の大部分に表示される傾向のある文字を選択してください。

tr ' \n' '\n ' | sed 's/> />/g' | tr '\n ' ' \n'

edの使用についてはどうですか?

ed -s test.txt <<< $'/fruits/s/Apple/banana/g\nw'

http://wiki.bash-hackers.org/howto/edit-ed 経由)

1
andrej

sedNコマンドで使用できるはずですが、トリックは、パターンスペースから1行を削除するたびに削除することです(そのため、パターンスペースには常にファイル全体を読み取ろうとするのではなく、2つの連続した行)-試します

sed ':a;$!N;s/>\n/>/;P;D;ba'

編集:再読後 Peteris Krumins 'Famous Sed One-Liners Explained Iより良いsedソリューションが

sed -e :a -e '/>$/N; s/\n//; ta'

これは、最後に>がすでに一致している場合にのみ次の行を追加し、条件付きでループ処理して連続する一致する行の場合(それはKruminの39です。次の行の置換を除いて、バックスラッシュ「\」で終了する場合は、行を次の行に追加します> for \ for the join character、and the fact that the join character istained in the output)).

1
steeldriver

私は この答え で説明されているように gsar を使用することになった:

gsar -F '-s>:x0A' '-r>'
0
MattBianco