テキストのデコードに取り組んでいます。 ASCIIで—
文字と間違えないように、-
文字の文字コードを見つけようとしています。私は失敗しました。誰がそれを変換する方法を知っていますか?
ウィキからの引用( Em dash )
ASCII文字セットなど)のように実際のemダッシュが使用できない場合、ダブル( "-")またはトリプルハイフンマイナス( "---")が使用されます。Unicodeでは、 emダッシュはU + 2014(10進数8212)です。
ダッシュ文字はASCII文字セットの一部ではありません。
—
は、Em Dashとして知られています。文字コードは\u2014
。 ASCII文字ではないため、ASCII文字セットでデコードすることはできません。ASCII =文字テーブル。代わりにUTF8を使用することをお勧めします。
この文字はASCIIには存在せず、Unicodeにのみ存在し、通常はUTF-8でエンコードされます。
UTF-8では、文字は2バイトまたは3バイトのシーケンス(または場合によってはそれ以上)でエンコードされます。2バイトまたは3バイトのいずれも有効なASCIIコードではありません。 ASCII 0〜127の範囲外。
上記はあなたの質問に部分的にしか答えていないのではないかと疑っていますが、そうであれば、おそらくあなたの質問が誤って部分的にしか聞かれていないからでしょう。詳細については、より詳細に質問を拡張できます。
キャラクター —
は、ASCIIセットの一部ではありません。
ただし、他の形式(U + hexなど)に変換する場合は、 this オンラインツールを使用できます。キャラクターを最初の緑色のボックスに入れ、「変換」をクリックします(ボックスの上)
さらに下には、U + hexを含むいくつかの異なるコードがあります。
U+2014
リンクが壊れたりコメントを残したりする場合は、この回答を自由に編集して、代替品を見つけてください。