awkを使用するときにフィールドに空白を保持する

Question

パイプで区切られたファイルでnawkを使用して、インデックスとキーとしてフィールドを印刷します。フィールドに空白が含まれている場合、空白がない場合はすべて正常に機能しますが、空白の場合はawkはそれをフィールド区切り文字として扱い、このo/pを新しい行に出力します。以下の私の入力を参照してください：

入力：

a|b|c d e|1|2|3 a|b c|d|1|2|2 3

出力：

Index=a|b|c Key=1|2|3 Index=d Key=<null> Index=e Key=<null> Index=a|b Key=1|2|2 Index=c|d Key=3

期待される出力：

Index=a|b|c d e Key=1|2|3 Index=a|b c|d Key=1|2|2 3

つまり、2つのレコード2インデックスと2つのキーがあり、基本的な空白をそのまま維持します。

フィールドが多すぎて巨大なデータがあるため、各行で作業するには以下のコードセットを使用する必要があります

 index=`echo "$line" | nawk -F '|' ' function select_from(from,to,delim) { if (to < from) { return; }; for (i=from;i<=to;i++) { if (NF < i) { break;}; if (i < to) { printf("%s%s",i,delim); } else { printf("%s",i); }; }; } {select_from(11,48,"|");};'`

スペースの代わりに特殊文字を使用した場合の応答は正しいですが、入力データでは正しくありません。このプロセスでスペースを確保できるかどうか知りたいです。

A.B. · Answer

awkの使用

from=1; to=3; delimiter="|"; awk -F"$delimiter" -v from="$from" -v to="$to" '!/^[[:blank:]]*$/ {printf "Index="; for(i=from; i<=to; i++) {printf $i; if(i<to) {printf "|"};} printf " "; printf "Key="; for(i=to+1; i<=NF; i++) {printf $i; if(i<NF) {printf "|"};} printf " "}' foo

より読みやすい

from=1; to=3; delimiter="|"; awk -F"$delimiter" -v from="$from" -v to="$to" '!/^[[:blank:]]*$/ { printf "Index="; for(i=from; i<=to; i++) { printf $i; if(i<to) { printf "|" }; } printf "
"; printf "Key="; for(i=to+1; i<=NF; i++) { printf $i; if(i<NF) { printf "|" }; } printf "
" }' foo

例

$ cat foo a|b|c d e|1|2|3 a|b c|d|1|2|2 3 $ from=1; to=3; delimiter="|"; awk -F"$delimiter" -v from="$from" -v to="$to" '!/^[[:blank:]]*$/ {printf "Index="; for(i=from; i<=to; i++) {printf $i; if(i<to) {printf "|"};} printf "
"; printf "Key="; for(i=to+1; i<=NF; i++) {printf $i; if(i<NF) {printf "|"};} printf "
"}' foo Index=a|b|c d e Key=1|2|3 Index=a|b c|d Key=1|2|2 3

Sylvain Pineau · Answer

次のPerlコマンドを使用して、予期される出力を取得できます。

$ Perl -ne 'print "Index=$1
Key=$2
" if /(.*?)[\s\|]([\|\d ]+)/' my_file Index=a|b|c d e Key=1|2|3 Index=a|b c|d Key=1|2|2 3

そのタスクには[nmg]awkを使用しません。メインスクリプトはbashで記述されているようなので、nawkコマンドを置き換えます。

#!/bin/bash Perl -ne 'print "Index=$1
Key=$2
" if /(.*?)[\s\|]([\|\d ]+)/' my_file

元のスクリプトで$lineを作成するループを削除することもできます。

Sergiy Kolodyazhnyy · Answer

ファイルを作成し、その下にawkスクリプトを保存します。

#!/usr/bin/awk -f BEGIN { FS="|";} { printf"Index:"; for(i=1;i<=NF;i++) { if ($i~/[[:alpha:]]/ && $(i+1)!~/[[:digit:]]/) { printf $i"|"; } else if ($i~/[[:alpha:]]/ && $(i+1)~/[[:digit:]]/) { print $i } } printf "
" } { printf"Key=:"; for(i=1;i<=NF;i++) { if ($i~/[[:digit:]]/ && $(i+1)~/[[:digit:]]/) printf $i"|" ; else if ($i~/[[:digit:]]$/) printf $i; } printf "
" }

ファイルを保存してSudo chmod +x awk-script-name.awkを実行し、次のようにテストファイルで実行します。

$ cat testfile.txt a|b|c d e|1|2|3 a|b c|d|1|2|2 3 $ key-index-script.awk testfile.txt Index:a|b|c d e Key=:1|2|3 Index:a|b c|d Key=:1|2|2 3