私は2つのファイルを持っています:
$ cat file1
jim.smith
john.doe
bill.johnson
alex.smith
$ cat file2
"1/26/2017 8:02:01 PM",Valid customer,jim.smith,NY,1485457321
"1/30/2017 11:09:36 AM",New customer,tim.jones,CO,1485770976
"1/30/2017 11:14:03 AM",New customer,john.doe,CA,1485771243
"1/30/2017 11:13:53 AM",New customer,bill.smith,CA,1485771233
File2から、file1に存在しないすべての名前が必要です。
以下は機能しません:
$ cut -d, -f 3 file2 | sed 's/"//g' | grep -v file1
jim.smith
tim.jones
john.doe
bill.smith
この場合、grep -vへのパイプが機能しないのはなぜですか?
これは事実上私の 以前の質問への回答 の最後のステップです。
grep
の-f
の前にfile1
を追加すると、ソリューションは機能します。
$ cut -d, -f3 file2 | grep -v -f file1
tim.jones
bill.smith
-f
を使用すると、grep
はfile1
でパターンを検索します。これがないと、リテラルパターンとしてfile1
を使用するだけです。
-F
を使用することもできます。そうしないと、パターン内のドットが「任意の文字」として解釈されるためです。そして、そこにいる間に、-x
もそこに入れて、grep
が行全体で一致を実行するようにします(joe.smith
がない場合に役立ちます)。一致joe.smiths
):
$ cut -d, -f3 file2 | grep -v -F -x -f file1
これには、明らかに、file1
の行末に末尾のスペースがないことが必要です(これは、質問のテキストにあるようです)。
sed
の出力には"
が含まれていないため、cut
は必要ないことに注意してください。また、すべての"
を削除するためにneededがあれば、tr -d '"'
の方が優れたツールでした。
これを試して。いいえsed
。 GNU diff
およびbash
が必要です。
diff --new-line-format="" --unchanged-line-format="" <(cut -f3 -d, file2|sort) <(sort file1)
歩留まりの結果:
bill.smith
tim.jones
これは機能するはずです:
$ pattern=$(cut -d, -f 3 file2)
$ grep -v -e "$pattern" file1
あなたの例では、grepはそのパターンを見逃しています。さらに、grepはファイルまたはstdin(パイプによる)の両方を読み取ることはできません。ファイル名が指定されていない場合、grepはstdinから読み取ります。
また、これも機能する可能性があります。
$ grep -v -f <(cut -d, -f3 file1) file2
申し訳ありませんが、テストされていません。
grep -f
の答えはおそらく最良の答えですが、少しスタイリッシュな代替手段は次のとおりです。
% cut -d, -f3 file2 >names2
% cat file1 file1 names2 | sort | uniq -u
bill.smith
tim.jones
%
もちろん、これには追加の一時ファイル(またはファイル記述子を使用した楽しいゲーム)が必要であり、大きなファイルで試してみたいとは思いません。
これについては、ファイル間の照合を含むタスクの場合、sort
とuniq
が予想外に用途が広く、おそらく過小評価されているツールのペアであるためにのみ言及します。迅速なタスクのために、彼らは結果に少し考えが必要な方法を提供することができます。