2つのUTF-8エンコードテキストファイルを比較したいと思います。 Linuxコマンドのdiffとcommはこれらのエンコーディングを処理できますか?
何故なの?
ロシア語の2つのテキストファイル
$ file -i test1.txt test2.txt
test1.txt: text/plain; charset=utf-8
test2.txt: text/plain; charset=utf-8
$ cat test1.txt
Привет
$ cat test2.txt
Добрый день
$ diff test1.txt test2.txt
1c1
< Привет
---
> Добрый день
-iパラメータを使用して、ファイルを強制的にエンコーディングに関する情報を出力
いくつかの文字を含む2つのファイルを作成しました
1つはtf-8でエンコードされ、もう1つはiso-8859-1でエンコードされます
$ file -i *
file1: text/plain; charset=utf-8
file2: text/plain; charset=iso-8859-1