一致する列データに基づいて2つのCSVファイルを結合します

Question

一致する列情報に基づいて、2つのCSVファイルのデータを結合したいと思います。一致するデータはFile1.csv列5とFile2列1からのものであり、一致時にFile2列2からの情報を追加し、一致しない場合は空の二重引用符を残します。

File1.csv

"Z","P","W","K","1","1.18.24.59" "S","K","D","X","9","1.14.19.238" "R","M","P","Y","8","1.15.11.21" "B","D","0","U","5","1.9.20.159" "R","E","W","Q","6","135.0.0.1" "K","D","K","R","9","1.9.74.13"

File2.csv

"65.9.7.19","374 22 53" "1.9.74.13","123 256 51" "1.18.24.59","23 25 41" "1.15.11.21","98 77 8291" "1.14.19.238","8827 145 8291" "1.9.20.159","283 1 5734"

必要な出力

"Z","P","W","K","1","1.18.24.59","23 25 41" "S","K","D","X","9","1.14.19.238","8827 145 8291" "R","M","P","Y","8","1.15.11.21","98 77 8291" "B","D","0","U","5","1.9.20.159","283 1 5734" "R","E","W","Q","6","135.0.0.1","" "K","D","K","R","9","1.9.74.13","123 256 51"

steve · Accepted Answer

awkを使用した1つの解決策を次に示します。 GNU awk4.1.3でテスト済み。

$ awk -F, 'NR==FNR{a[$1]=$2}NR!=FNR{print $0","(a[$6]?a[$6]:"\"\"")}' file2.csv file1.csv "Z","P","W","K","1","1.18.24.59","23 25 41" "S","K","D","X","9","1.14.19.238","8827 145 8291" "R","M","P","Y","8","1.15.11.21","98 77 8291" "B","D","0","U","5","1.9.20.159","283 1 5734" "R","E","W","Q","6","135.0.0.1","" "K","D","K","R","9","1.9.74.13","123 256 51" $

NR==FNR{a[$1]=$2 file2の行と一致し、フィールド＃1をキーとして配列に追加します。
NR!=FNR次に、file1の行と一致します。
print $0","file1の行全体とそれに続くコンマを出力します。
(a[$6]?a[$6]:"\"\"")は、以前に作成された配列の対応する内容を出力しますが、""エントリが見つからない場合。

steeldriver · Answer

これは私が予想していたよりも難しいことが判明しましたが、Pythonベースのcsvkitバージョン1.0.2のツールを使用しました：

$ csvjoin -HI -c 6,1 --left File1.csv File2.csv 2>/dev/null | csvformat -K1 -U1 "Z","P","W","K","1","1.18.24.59","23 25 41" "S","K","D","X","9","1.14.19.238","8827 145 8291" "R","M","P","Y","8","1.15.11.21","98 77 8291" "B","D","0","U","5","1.9.20.159","283 1 5734" "R","E","W","Q","6","135.0.0.1","" "K","D","K","R","9","1.9.74.13","123 256 51"

（-Iは、少なくとも私のロケールでは、ドットで区切られたフィールドが日時であるとcsvjoinが推測するのを防ぐために必要なようです。）

Praveen Kumar BS · Answer

for i in `cat file2.csv | awk -F "," '{print $1}'| sed 's/"//g'`; do j=`sed -n '/'$i'/p' file2.csv| awk -F "," '{print $2}'| sed 's/"//g'`;awk -v i="$i" -v j="$j" -F "," '$NF==i{$7=j;print $0}' file1.csv; done| sed 's/ /","/g'| sed 's/^/"/g'| sed 's/$/"/g'

出力

"Z","P","W","K","1","1.18.24.59","23 25 41" "S","K","D","X","9","1.14.19.238","8827 145 8291" "R","M","P","Y","8","1.15.11.21","98 77 8291" "B","D","0","U","5","1.9.20.159","283 1 5734" "R","E","W","Q","6","135.0.0.1","" "K","D","K","R","9","1.9.74.13","123 256 51"