web-dev-qa-db-ja.com

awkを使用して異なるファイルの複数の列を結合する

次のような4つのtsv(タブ区切り)ファイルがあります。

file_1:

abc 1
def 2
ghi 3

file_2:

abc 2
ghi 3

file_3:

def 1
ghi 2
jkl 4

file_4:

ghi 3
jkl 4

これらのファイルを結合して、次のような1つのtsvファイルを取得します。

dataset file_1 file_2 file_3 file_4
abc     1      2             
def     2      4            
ghi     3      3      2      3
jkl                   4      4

awkを使用してみました

$ awk '
    BEGIN{OFS=FS="\t"} 
    FNR==1{f = f "\t" FILENAME} 
    NR==FNR{a[$1] = $2} 
    NR!=FNR{a[$1] = a[$1] "\t" $2} 
    END{printf "dataset%s\n", f; for(i in a) print i, a[i]}
  ' file_{1..4}

このコマンドは機能しますが、シフトした値を取得しました。たとえば、1番目と2番目の列の値が空で、3番目と4番目の列の値が4と4の場合、そのコマンドから取得した出力の1番目と2番目の列の値は4ですが、3番目と4番目の列の値は空です。ですから、私が言及したawkを使用して、tsvファイルを個別に結合しようとします。まずfile_1file_2を取得してoutput_1を取得し、次にfile_3file_4を結合してoutput_2を取得します。その後、$ join output_1 output_2を使用してoutput_1とoutput_2をマージしますが、4つのファイルに存在する値のみを取得します。 1つのファイルにのみ存在するデータを失いました。

アドバイスをいただければ幸いです。

ありがとうございました

5
Lulu' Nisrina
$ cat tst.awk
BEGIN { FS=OFS="\t" }
{ datasets[$1]; fnames[FILENAME]; vals[$1,FILENAME] = $2 }
END {
    printf "%s", "dataset"
    for (fname in fnames) {
        printf "%s%s", OFS, fname
    }
    print ""
    for (dataset in datasets) {
        printf "%s", dataset
        for (fname in fnames) {
            printf "%s%s", OFS, vals[dataset,fname]
        }
        print ""
    }
}

$ tail -n +1 file?
==> file1 <==
a       1
b       2
c       3

==> file2 <==
a       2
c       3

$ awk -f tst.awk file1 file2
dataset file1   file2
a       1       2
b       2
c       3       3

リストに好きなだけファイルを追加します。

7
Ed Morton

join (GNU coreutils) 8.30と「プロセス置換」を使用すると、

join -a1 -a2 -t"    " -oauto  -e " " <(join -a1 -a2 -t" " -oauto  -e "" file[12]) <(join -a1 -a2 -t"    " -oauto  -e " " file[34])
abc 1   2        
def 2       1    
ghi 3   3   2   3
jkl         4   4

-tオプションには<TAB>文字値。

2
RudiC

今のところアドバイス:必要に応じて後でコーディングする。

すべてのファイルを読み取る間、3つの配列を保持します。

(a)新しいファイルごとに、ファイル名のハッシュリスト。
(b)新しいデータセットごとに、$ 1のハッシュリスト。
(c)各行について、値のハッシュリスト

FNR == 1 { ++htFile[FILENAME]; }
! ($1 in htSet) { ++htSet[$1]; }
{ htVal [FILENAME, $1] = $2; }

End関数で、htFileとhtSetを反復処理します。

function Table (r, c, buf) {
    buf = "dataset";
    for (c in htFile)
        buf = sprint ("%s\t%s", buf, htFile[c]);
    print buf;
    for (r in htSet) {
        buf = "";
        for (c in htFile)
            buf = sprint ("%s\t%s", buf, htVal[c, r]);
        print substr (buf, 2);
    }
}
END { Table( ); }

これは、出力テーブル内のファイルとデータセットの順序を維持しません。それが重要な場合は、テーブルのシーケンスバージョンを保持し、元の順序で繰り返すことができます。

0
Paul_Pedant