最初のファイルの最初の列のすべての値に基づいて2つのファイルをマージします

Question

以下の2つのファイルをマージする必要があります：

file1：

テーブルREF-IO HEAD-IO DIFF-IO
テスト200500-300
試験2 3 -1
最終21 1
メール42 2
合計208506 -298

file2：

TABLES REF-SELECT HEAD-SELECT DIFF-SELECT
テスト57 -2
ゲーム330
試験07 -7
最終126 6
合計20 23 -3

マージされたファイルは次のようになります：

テーブルREF-IOHEAD-IO DIFF-IO REF-SELECT HEAD-SELECT DIFF-SELECT
テスト200500 -300 5 7 -2
試験2 3 -1 0 7 -7
最終21 1 12 6 6
メール4 2 2 0 0 0
合計208506-298 20 23 -3

glenn jackman · Accepted Answer

awk ' NR==FNR {vals[$1] = $2 " " $3 " " $4; next} !($1 in vals) {vals[$1] = "0 0 0"} {$(NF+1) = vals[$1]; print} ' file2 file1

TABLES REF-IO HEAD-IO DIFF-IO REF-SELECT HEAD-SELECT DIFF-SELECT test 200 500 -300 5 7 -2 exam 2 3 -1 0 7 -7 final 2 1 1 12 6 6 mail 4 2 2 0 0 0 TOTAL 208 506 -298 20 23 -3

don_crissti · Answer

joinを使用して行の順序、ヘッダー、フッターなどを保持する方法は次のとおりです...

join -1 2 -2 1 -a 1 -e 0 -o 1.1,1.2,1.3,1.4,1.5,2.2,2.3,2.4 \ <(sort -k2,2 <(nl -ba -nrz file1)) <(sort -k1,1 file2) | \ sort -k1,1n | cut -d\ -f2-

結果：

TABLES REF-IO HEAD-IO DIFF-IO REF-SELECT HEAD-SELECT DIFF-SELECT test 200 500 -300 5 7 -2 exam 2 3 -1 0 7 -7 final 2 1 1 12 6 6 mail 4 2 2 0 0 0 TOTAL 208 506 -298 20 23 -3

使い方：

nl -ba -nrz file1はfile1の行に番号を付け、出力は2番目のフィールドでsortされます。 file2も1番目のフィールドでsortedされ、結果は1番目の入力の2番目のフィールドと2番目の入力の1番目のフィールドでjoinedされ、欠落している入力フィールドが0に置き換えられます。：

000003 exam 2 3 -1 0 7 -7 000004 final 2 1 1 12 6 6 000005 mail 4 2 2 0 0 0 000001 TABLES REF-IO HEAD-IO DIFF-IO REF-SELECT HEAD-SELECT DIFF-SELECT 000002 test 200 500 -300 5 7 -2 000006 TOTAL 208 506 -298 20 23 -3

次に、これはsort -k1,1nを使用して最初のフィールドでソートされ、行の順序が復元されます。次に、cut -d\ -f2-が行番号を削除します。 columnでさらに美しくすることができます。例： .... | column -t：

TABLES REF-IO HEAD-IO DIFF-IO REF-SELECT HEAD-SELECT DIFF-SELECT test 200 500 -300 5 7 -2 exam 2 3 -1 0 7 -7 final 2 1 1 12 6 6 mail 4 2 2 0 0 0 TOTAL 208 506 -298 20 23 -3

Laurent C. · Answer

このスクリプトは機能するはずです：

touch resultFile while read f; do header1=$(echo $f | awk '{print $1;}'); values1=$(echo $f | awk -F "$header1 " '{print $NF;}'); while read g; do header2=$(echo $g | awk '{print $1;}'); values2=$(echo $g | awk -F "$header2 " '{print $NF;}'); if [ $header1 = $header2 ]; then echo "$header1 $values1 $values2" >> resultFile fi done < file2 done < file1

ヘッダーは一意である必要があります。一意でない場合は、最後に見つかった行のみがマージされます。

PS：「mail」ヘッダーは「game」のように両方のファイルに存在しないため、結果に存在すべきではないと考えました（この例では、「mail」は存在しますが「game」は存在しません）。

Thor · Answer

ご参考までに、行の順序は保持されませんが、joinを使用してこれを行うことは可能です。

( join <(head -n1 file1) <(head -n1 file2) join -a 1 -e 0 -o '0 1.2 1.3 1.4 2.2 2.3 2.4' \ <(sed -n 2,5p file1 | sort) \ <(sed -n 2,5p file2 | sort) join <(tail -n1 file1) <(tail -n1 file2) )

出力：

TABLES REF-IO HEAD-IO DIFF-IO REF-SELECT HEAD-SELECT DIFF-SELECT exam 2 3 -1 0 7 -7 final 2 1 1 12 6 6 mail 4 2 2 0 0 0 test 200 500 -300 5 7 -2 TOTAL 208 506 -298 20 23 -3