ファイルからすべての発音区別符号を削除する方法は？

Question

発音区別符号を含む多くの母音を含むファイルがあります。これらを交換する必要があります：

Ā、á、ǎ、àをaに置き換えます。
Ē、é、ě、およびèをeに置き換えます。
Ī、í、ǐ、ìをiに置き換えます。
Ō、ó、ǒ、òをoに置き換えます。
Ū、ú、ǔ、およびReplaceをuに置き換えます。
Ǖ、ǘ、ǚ、ǜをüに置き換えます。
Ā、Á、Ǎ、ÀをAに置き換えます。
Ē、É、Ě、ÈをEに置き換えます。
Ī、Í、Ǐ、ÌをIに置き換えます。
Ō、Ó、Ǒ、ÒをOに置き換えます。
Ū、Ú、Ǔ、ÙをUに置き換えます。
Ǖ、Ǘ、Ǚ、およびReplaceをÜに置き換えます。

私はそれらを一度にこれで置き換えることができることを知っています：

sed -i 's/ā/a/g' ./file.txt

これらすべてを置き換えるより効率的な方法はありますか？

Kent · Accepted Answer

ツールのマニュアルページiconvを確認すると、次のようになります。

//トランジット
文字列 "// TRANSLIT"が--to-codeに追加されると、文字変換がアクティブになります。これは、文字がターゲット文字セットで表現できない場合、1つまたは複数の同様に見える文字で近似できることを意味します。

だから私たちはできる：

kent$ cat test1 Replace ā, á, ǎ, and à with a. Replace ē, é, ě, and è with e. Replace ī, í, ǐ, and ì with i. Replace ō, ó, ǒ, and ò with o. Replace ū, ú, ǔ, and ù with u. Replace ǖ, ǘ, ǚ, and ǜ with ü. Replace Ā, Á, Ǎ, and À with A. Replace Ē, É, Ě, and È with E. Replace Ī, Í, Ǐ, and Ì with I. Replace Ō, Ó, Ǒ, and Ò with O. Replace Ū, Ú, Ǔ, and Ù with U. Replace Ǖ, Ǘ, Ǚ, and Ǜ with Ü. kent$ iconv -f utf8 -t ascii//TRANSLIT test1 Replace a, a, a, and a with a. Replace e, e, e, and e with e. Replace i, i, i, and i with i. Replace o, o, o, and o with o. Replace u, u, u, and u with u. Replace u, u, u, and u with u. Replace A, A, A, and A with A. Replace E, E, E, and E with E. Replace I, I, I, and I with I. Replace O, O, O, and O with O. Replace U, U, U, and U with U. Replace U, U, U, and U with U.

potong · Answer

これはあなたのために働くかもしれません：

sed -i 'y/āáǎàēéěèīíǐìōóǒòūúǔùǖǘǚǜĀÁǍÀĒÉĚÈĪÍǏÌŌÓǑÒŪÚǓÙǕǗǙǛ/aaaaeeeeiiiioooouuuuüüüüAAAAEEEEIIIIOOOOUUUUÜÜÜÜ/' file

Fedir RYKHTIK · Answer

iconvは、すべてのアクセントのバリエーションを処理するので、気に入っています。

cat non-ascii.txt | iconv -f utf8 -t ascii//TRANSLIT//IGNORE > ascii.txt

ktf · Answer

このためにはtr（1）コマンドが必要です。例えば：

tr 'āáǎàēéěèīíǐì...' 'aaaaeeeeiii...' <infile >outfile

使用している文字セットと一致するように、LANG環境変数を確認/変更する必要がある場合があります。

hungnv · Answer

次のようなものを使用できます。

 sed -e 's/[àâ]/a/g;s/[ọõ]/o/g;s/[í,ì]/i/g;s/[ê,ệ]/e/g'

必要に応じて、[..]に文字を追加するだけです。

Rich Traube · Answer

man iso_8859_1（または文字セット）またはod -bcを使用して、発音区別符号の8進数表現を識別できます。次に、gawkを使用して置き換えます。

{ gsub(/\344/,"a"; print $0 }

これはäをaに置き換えます。

Thiago Mata · Answer

私のように、ファイルテキストのいくつかの特別な場所でアクセントを置き換える必要がある場合は、この種類の正規表現を使用してそれを行うことができます

echo '{"doNotReplaceKey":"bábögêjírù","replaceValueKey":"bábögêjírù","anotherNotReplaceKey":"bábögêjírù"}' \ | sed -e ':a;s/replaceValueKey":"$[a-zA-Z0-9 -_]*$[áâàãä]/replaceValueKey":"\1a/g;ta' \ | sed -e ':a;s/replaceValueKey":"$[a-zA-Z0-9 -_]*$[éêèë]/replaceValueKey":"\1e/g;ta' \ | sed -e ':a;s/replaceValueKey":"$[a-zA-Z0-9 -_]*$[íîìï]/replaceValueKey":"\1i/g;ta' \ | sed -e ':a;s/replaceValueKey":"$[a-zA-Z0-9 -_]*$[óôòõö]/replaceValueKey":"\1o/g;ta' \ | sed -e ':a;s/replaceValueKey":"$[a-zA-Z0-9 -_]*$[úûùü]/replaceValueKey":"\1u/g;ta'

出力

{"doNotReplaceKey":"bábögêjírù","replaceValueKey":"babogejiru","anotherNotReplaceKey":"bábögêjírù"}

Fred · Answer

#!/bin/bash INPUT="$1" declare -a acc declare -a noa acc=('$' 'Ã¨' 'Ãª' 'Ã©' 'À' 'Á' 'Â' 'Ã' 'Ä' 'Å' 'Æ' 'Ç' 'È' 'É' 'Ê' 'Ë' 'Ì' 'Í' 'Î' 'Ï' 'Ð' 'Ñ' 'Ò' 'Ó' 'Ô' 'Õ' 'Ö' 'Ø' 'Ù' 'Ú' 'Û' 'Ü' 'Ý' 'ß' 'à' 'á' 'â' 'ã' 'ä' 'å' 'æ' 'ç' 'è' 'é' 'ê' 'ë' 'ì' 'í' 'î' 'ï' 'ñ' 'ò' 'ó' 'ô' 'õ' 'ö' 'ø' 'ù' 'ú' 'û' 'ü' 'ý' 'ÿ' 'Ā' 'ā' 'Ă' 'ă' 'Ą' 'ą' 'Ć' 'ć' 'Ĉ' 'ĉ' 'Ċ' 'ċ' 'Č' 'č' 'Ď' 'ď' 'Đ' 'đ' 'Ē' 'ē' 'Ĕ' 'ĕ' 'Ė' 'ė' 'Ę' 'ę' 'Ě' 'ě' 'Ĝ' 'ĝ' 'Ğ' 'ğ' 'Ġ' 'ġ' 'Ģ' 'ģ' 'Ĥ' 'ĥ' 'Ħ' 'ħ' 'Ĩ' 'ĩ' 'Ī' 'ī' 'Ĭ' 'ĭ' 'Į' 'į' 'İ' 'ı' 'Ĳ' 'ĳ' 'Ĵ' 'ĵ' 'Ķ' 'ķ' 'Ĺ' 'ĺ' 'Ļ' 'ļ' 'Ľ' 'ľ' 'Ŀ' 'ŀ' 'Ł' 'ł' 'Ń' 'ń' 'Ņ' 'ņ' 'Ň' 'ň' 'ŉ' 'Ō' 'ō' 'Ŏ' 'ŏ' 'Ő' 'ő' 'Œ' 'œ' 'Ŕ' 'ŕ' 'Ŗ' 'ŗ' 'Ř' 'ř' 'Ś' 'ś' 'Ŝ' 'ŝ' 'Ş' 'ş' 'Š' 'š' 'Ţ' 'ţ' 'Ť' 'ť' 'Ŧ' 'ŧ' 'Ũ' 'ũ' 'Ū' 'ū' 'Ŭ' 'ŭ' 'Ů' 'ů' 'Ű' 'ű' 'Ų' 'ų' 'Ŵ' 'ŵ' 'Ŷ' 'ŷ' 'Ÿ' 'Ź' 'ź' 'Ż' 'ż' 'Ž' 'ž' 'ſ' 'ƒ' 'Ơ' 'ơ' 'Ư' 'ư' 'Ǎ' 'ǎ' 'Ǐ' 'ǐ' 'Ǒ' 'ǒ' 'Ǔ' 'ǔ' 'Ǖ' 'ǖ' 'Ǘ' 'ǘ' 'Ǚ' 'ǚ' 'Ǜ' 'ǜ' 'Ǻ' 'ǻ' 'Ǽ' 'ǽ' 'Ǿ' 'ǿ'); noa=('S' 'e' 'e' 'e' 'A' 'A' 'A' 'A' 'A' 'A' 'AE' 'C' 'E' 'E' 'E' 'E' 'I' 'I' 'I' 'I' 'D' 'N' 'O' 'O' 'O' 'O' 'O' 'O' 'U' 'U' 'U' 'U' 'Y' 's' 'a' 'a' 'a' 'a' 'a' 'a' 'ae' 'c' 'e' 'e' 'e' 'e' 'i' 'i' 'i' 'i' 'n' 'o' 'o' 'o' 'o' 'o' 'o' 'u' 'u' 'u' 'u' 'y' 'y' 'A' 'a' 'A' 'a' 'A' 'a' 'C' 'c' 'C' 'c' 'C' 'c' 'C' 'c' 'D' 'd' 'D' 'd' 'E' 'e' 'E' 'e' 'E' 'e' 'E' 'e' 'E' 'e' 'G' 'g' 'G' 'g' 'G' 'g' 'G' 'g' 'H' 'h' 'H' 'h' 'I' 'i' 'I' 'i' 'I' 'i' 'I' 'i' 'I' 'i' 'IJ' 'ij' 'J' 'j' 'K' 'k' 'L' 'l' 'L' 'l' 'L' 'l' 'L' 'l' 'l' 'l' 'N' 'n' 'N' 'n' 'N' 'n' 'n' 'O' 'o' 'O' 'o' 'O' 'o' 'OE' 'oe' 'R' 'r' 'R' 'r' 'R' 'r' 'S' 's' 'S' 's' 'S' 's' 'S' 's' 'T' 't' 'T' 't' 'T' 't' 'U' 'u' 'U' 'u' 'U' 'u' 'U' 'u' 'U' 'u' 'U' 'u' 'W' 'w' 'Y' 'y' 'Y' 'Z' 'z' 'Z' 'z' 'Z' 'z' 's' 'f' 'O' 'o' 'U' 'u' 'A' 'a' 'I' 'i' 'O' 'o' 'U' 'u' 'U' 'u' 'U' 'u' 'U' 'u' 'U' 'u' 'A' 'a' 'AE' 'ae' 'O' 'o'); i=0 length=${#INPUT} while [[ $i -lt $length ]]; do char=${INPUT:$i:1}; #echo $i:$char j=0 for letter in "${acc[@]}" do if [[ "$letter" == "$char" ]]; then char="${noa[$j]}" fi ((j++)) done ((i++)) OUTPUT=$OUTPUT$char done echo $OUTPUT

Bruno · Answer

これは機能しない場合があります。ロケールを設定する必要があるからといって！

ロケールを使用してLC_ALLを設定します。次に例を示します。

export LC_ALL=en_US.iso88591

ロケールの完全なリストは、次の場所から入手できます。

locale -a