grep
、awk
、Perl
などのコマンドラインユーティリティを使用して、ファイル内のすべての非ASCII文字とそれらが出現する行番号を印刷する簡単な方法はありますか、など?
テキストファイルのエンコードをUTF-8からASCIIに変更したいのですが、変更する前に、非ASCII文字のすべてのインスタンスを手動で置き換えて、ファイル変換ルーチンによる予期しない文字の変更を回避したいと思います。
$ Perl -ne 'print "$. $_" if m/[\x80-\xFF]/' utf8.txt
2 Pour être ou ne pas être
4 Byť či nebyť
5 是或不
または
$ grep -n -P '[\x80-\xFF]' utf8.txt
2:Pour être ou ne pas être
4:Byť či nebyť
5:是或不
ここで、utf8.txtは
$ cat utf8.txt
To be or not to be.
Pour être ou ne pas être
Om of niet zijn
Byť či nebyť
是或不
テキストファイルのエンコードをUTF-8からASCII ...に変更したい.
...非ASCII文字のすべてのインスタンスを置き換えます...
次に、変換ツールにそのように指示します。
$ iconv -c -f UTF-8 -t ASCII <<< 'Look at 私.'
Look at .
$ iconv -c -f UTF-8 -t ASCII//translit <<< 'áēìöų'
aeiou