awkを使用して異なるファイルの複数の列を結合する

Question

次のような4つのtsv（タブ区切り）ファイルがあります。

file_1：

abc 1 def 2 ghi 3

file_2：

abc 2 ghi 3

file_3：

def 1 ghi 2 jkl 4

file_4：

ghi 3 jkl 4

これらのファイルを結合して、次のような1つのtsvファイルを取得します。

dataset file_1 file_2 file_3 file_4 abc 1 2 def 2 4 ghi 3 3 2 3 jkl 4 4

awkを使用してみました

$ awk ' BEGIN{OFS=FS="	"} FNR==1{f = f "	" FILENAME} NR==FNR{a[$1] = $2} NR!=FNR{a[$1] = a[$1] "	" $2} END{printf "dataset%s
", f; for(i in a) print i, a[i]} ' file_{1..4}

このコマンドは機能しますが、シフトした値を取得しました。たとえば、1番目と2番目の列の値が空で、3番目と4番目の列の値が4と4の場合、そのコマンドから取得した出力の1番目と2番目の列の値は4ですが、3番目と4番目の列の値は空です。ですから、私が言及したawkを使用して、tsvファイルを個別に結合しようとします。まずfile_1とfile_2を取得してoutput_1を取得し、次にfile_3とfile_4を結合してoutput_2を取得します。その後、$ join output_1 output_2を使用してoutput_1とoutput_2をマージしますが、4つのファイルに存在する値のみを取得します。 1つのファイルにのみ存在するデータを失いました。

アドバイスをいただければ幸いです。

ありがとうございました

Ed Morton · Accepted Answer

$ cat tst.awk BEGIN { FS=OFS="	" } { datasets[$1]; fnames[FILENAME]; vals[$1,FILENAME] = $2 } END { printf "%s", "dataset" for (fname in fnames) { printf "%s%s", OFS, fname } print "" for (dataset in datasets) { printf "%s", dataset for (fname in fnames) { printf "%s%s", OFS, vals[dataset,fname] } print "" } } $ tail -n +1 file? ==> file1 <== a 1 b 2 c 3 ==> file2 <== a 2 c 3 $ awk -f tst.awk file1 file2 dataset file1 file2 a 1 2 b 2 c 3 3

リストに好きなだけファイルを追加します。

RudiC · Answer

join (GNU coreutils) 8.30と「プロセス置換」を使用すると、

join -a1 -a2 -t" " -oauto -e " " <(join -a1 -a2 -t" " -oauto -e "" file[12]) <(join -a1 -a2 -t" " -oauto -e " " file[34]) abc 1 2 def 2 1 ghi 3 3 2 3 jkl 4 4

-tオプションには<TAB>文字値。

Paul_Pedant · Answer

今のところアドバイス：必要に応じて後でコーディングする。

すべてのファイルを読み取る間、3つの配列を保持します。

（a）新しいファイルごとに、ファイル名のハッシュリスト。
（b）新しいデータセットごとに、$ 1のハッシュリスト。
（c）各行について、値のハッシュリスト

FNR == 1 { ++htFile[FILENAME]; } ! ($1 in htSet) { ++htSet[$1]; } { htVal [FILENAME, $1] = $2; }

End関数で、htFileとhtSetを反復処理します。

function Table (r, c, buf) { buf = "dataset"; for (c in htFile) buf = sprint ("%s	%s", buf, htFile[c]); print buf; for (r in htSet) { buf = ""; for (c in htFile) buf = sprint ("%s	%s", buf, htVal[c, r]); print substr (buf, 2); } } END { Table( ); }

これは、出力テーブル内のファイルとデータセットの順序を維持しません。それが重要な場合は、テーブルのシーケンスバージョンを保持し、元の順序で繰り返すことができます。