web-dev-qa-db-ja.com

\ uxxxxのようなシンボルでテキストファイルをデコードする方法

\uXXXX文字を含む10 MBのファイルがあります。サブライトテキストでこれをデコードする方法

例:
enter image description here

1
LA_

試すことができるいくつかの異なることがあります。まず第一に、表示する文字をサポートするUnicodeフォントを使用する必要があります。 このサイト Unicode.orgの上では良いリソースであり、いつものようにGoogleはかなり役に立ちます。非宇宙のフォントを使用していない場合は、Arial Unicode MSにWindowsが付属しており、かなり良いカバレッジがあります。私はモノスパースフォントコンソーラズも同様にしていると思います。

第二に、あなたのオペレーティングシステムをそれらの文字を表示するために設定する必要があります - 最も近代的なものはいくつかのバージョンとWindowsの設定に問題があるかもしれません。

昇華で、正しいモードでファイルを表示していることを確認してください - tryFile -> Reopen with Encoding -> UTF-8または... -> UTF-16LE(またはBE、両方を試すことができます)。

それで、あなたのファイルの正確な内容を知らず、それがどのように生成されたか、そしてあなたのシステムについての詳細は、私ができる最善のことです。幸運を!


[〜#〜]編集[〜#〜]

リンクされたファイルに基づいて、データがUnicode文字列を含むリストにあるように見えるように、このようなものはPython 2プログラムの出力です(私はPythonプログラマーです)。起こる)。私は言及されたコードポイントを調べました、そして、彼らはすべてキリルティックですので、彼らはそれらを扱うべきです。この問題は、ファイルに読み込んで個々のバイトを翻訳するためのプログラムを必要とすることです。興味がある場合は、最初のフル文字列('から'まで)は次のとおりです。

Любимаяакциявернулась! "3Роллапоцене1" "! 9По12Сентября! Толькоэти4ДНЯ! Evrasia.Spb.ru、88005050145 008

ファイル全体を持たずに、私はあなたのために全体を解析することはできませんが、あなたがPythonプログラマーであれば、何をすべきか知っておくべきです(Python 3、そのUnicodeを使用することをお勧めします。サポートは2.xよりはるかに優れています)。そうでなければ、ファイルを生成した人を見つけて、あなたのためにバイトを復号するように依頼してください。

1
MattDMo