まず、Windows CMDエンコーディングをutf-8に変更して、Pythonインタープリター:
chcp 65001
python
次に、その中にユニコード文字列を印刷しようとしますが、これを行うとPythonが特異な方法でクラッシュします(同じウィンドウでcmdプロンプトが表示されるだけです)。
>>> import sys
>>> print u'ëèæîð'.encode(sys.stdin.encoding)
それが起こる理由とそれを機能させる方法はありますか?
UPD:sys.stdin.encoding
戻り値 'cp65001'
UPD2:utf-8が マルチバイト文字セット を使用しているという事実に関連しているのではないかと思いました。 「windows-1250」でサンプル全体を実行してみたところ、「ëea?」が表示されました。 Windows-1250は単一文字セットを使用するため、理解できる文字に対して機能しました。ただし、「utf-8」をここで機能させる方法はまだわかりません。
UPD3:ああ、私はそれが known Python bug であることがわかりました。何が起こるかと思いますPython sys.stdin.encodingに「cp65001」を入力し、すべての入力に適用しようとします。「cp65001」を理解できないため、非ASCII文字を含む入力でクラッシュします。
cp65001
を変更せずにencodings\aliases.py
をUTF-8にエイリアスする方法は次のとおりです。
import codecs
codecs.register(lambda name: codecs.lookup('utf-8') if name == 'cp65001' else None)
(私見、cp65001
が http://bugs.python.org/issue6058#msg97731 でUTF-8と同一ではないという愚かさに注意を払ってはいけません。 Microsoftのコーデックにいくつかのマイナーなバグがある場合でも同じです。)
以下は、chcp
コードのコンソール出力をに関係なく動作させるコード(Tahoe-LAFS、tahoe-lafs.org用に作成された)です。ページ、およびUnicodeコマンドライン引数も読み取ります。 Michael Kaplan に感謝します。 stdoutまたはstderrがリダイレクトされる場合、UTF-8が出力されます。バイトオーダーマークが必要な場合は、明示的に記述する必要があります。
[編集:このバージョンでは、MSVCランタイムライブラリの_O_U8TEXT
フラグの代わりにWriteConsoleW
を使用しますが、これはバグがあります。 WriteConsoleW
もMSのドキュメントに比べてバグがありますが、そうではありません。]
import sys
if sys.platform == "win32":
import codecs
from ctypes import WINFUNCTYPE, windll, POINTER, byref, c_int
from ctypes.wintypes import BOOL, HANDLE, DWORD, LPWSTR, LPCWSTR, LPVOID
original_stderr = sys.stderr
# If any exception occurs in this code, we'll probably try to print it on stderr,
# which makes for frustrating debugging if stderr is directed to our wrapper.
# So be paranoid about catching errors and reporting them to original_stderr,
# so that we can at least see them.
def _complain(message):
print >>original_stderr, message if isinstance(message, str) else repr(message)
# Work around <http://bugs.python.org/issue6058>.
codecs.register(lambda name: codecs.lookup('utf-8') if name == 'cp65001' else None)
# Make Unicode console output work independently of the current code page.
# This also fixes <http://bugs.python.org/issue1602>.
# Credit to Michael Kaplan <http://www.siao2.com/2010/04/07/9989346.aspx>
# and TZOmegaTZIOY
# <http://stackoverflow.com/questions/878972/windows-cmd-encoding-change-causes-python-crash/1432462#1432462>.
try:
# <http://msdn.Microsoft.com/en-us/library/ms683231(VS.85).aspx>
# HANDLE WINAPI GetStdHandle(DWORD nStdHandle);
# returns INVALID_HANDLE_VALUE, NULL, or a valid handle
#
# <http://msdn.Microsoft.com/en-us/library/aa364960(VS.85).aspx>
# DWORD WINAPI GetFileType(DWORD hFile);
#
# <http://msdn.Microsoft.com/en-us/library/ms683167(VS.85).aspx>
# BOOL WINAPI GetConsoleMode(HANDLE hConsole, LPDWORD lpMode);
GetStdHandle = WINFUNCTYPE(HANDLE, DWORD)(("GetStdHandle", windll.kernel32))
STD_OUTPUT_HANDLE = DWORD(-11)
STD_ERROR_HANDLE = DWORD(-12)
GetFileType = WINFUNCTYPE(DWORD, DWORD)(("GetFileType", windll.kernel32))
FILE_TYPE_CHAR = 0x0002
FILE_TYPE_REMOTE = 0x8000
GetConsoleMode = WINFUNCTYPE(BOOL, HANDLE, POINTER(DWORD))(("GetConsoleMode", windll.kernel32))
INVALID_HANDLE_VALUE = DWORD(-1).value
def not_a_console(handle):
if handle == INVALID_HANDLE_VALUE or handle is None:
return True
return ((GetFileType(handle) & ~FILE_TYPE_REMOTE) != FILE_TYPE_CHAR
or GetConsoleMode(handle, byref(DWORD())) == 0)
old_stdout_fileno = None
old_stderr_fileno = None
if hasattr(sys.stdout, 'fileno'):
old_stdout_fileno = sys.stdout.fileno()
if hasattr(sys.stderr, 'fileno'):
old_stderr_fileno = sys.stderr.fileno()
STDOUT_FILENO = 1
STDERR_FILENO = 2
real_stdout = (old_stdout_fileno == STDOUT_FILENO)
real_stderr = (old_stderr_fileno == STDERR_FILENO)
if real_stdout:
hStdout = GetStdHandle(STD_OUTPUT_HANDLE)
if not_a_console(hStdout):
real_stdout = False
if real_stderr:
hStderr = GetStdHandle(STD_ERROR_HANDLE)
if not_a_console(hStderr):
real_stderr = False
if real_stdout or real_stderr:
# BOOL WINAPI WriteConsoleW(HANDLE hOutput, LPWSTR lpBuffer, DWORD nChars,
# LPDWORD lpCharsWritten, LPVOID lpReserved);
WriteConsoleW = WINFUNCTYPE(BOOL, HANDLE, LPWSTR, DWORD, POINTER(DWORD), LPVOID)(("WriteConsoleW", windll.kernel32))
class UnicodeOutput:
def __init__(self, hConsole, stream, fileno, name):
self._hConsole = hConsole
self._stream = stream
self._fileno = fileno
self.closed = False
self.softspace = False
self.mode = 'w'
self.encoding = 'utf-8'
self.name = name
self.flush()
def isatty(self):
return False
def close(self):
# don't really close the handle, that would only cause problems
self.closed = True
def fileno(self):
return self._fileno
def flush(self):
if self._hConsole is None:
try:
self._stream.flush()
except Exception as e:
_complain("%s.flush: %r from %r" % (self.name, e, self._stream))
raise
def write(self, text):
try:
if self._hConsole is None:
if isinstance(text, unicode):
text = text.encode('utf-8')
self._stream.write(text)
else:
if not isinstance(text, unicode):
text = str(text).decode('utf-8')
remaining = len(text)
while remaining:
n = DWORD(0)
# There is a shorter-than-documented limitation on the
# length of the string passed to WriteConsoleW (see
# <http://tahoe-lafs.org/trac/tahoe-lafs/ticket/1232>.
retval = WriteConsoleW(self._hConsole, text, min(remaining, 10000), byref(n), None)
if retval == 0 or n.value == 0:
raise IOError("WriteConsoleW returned %r, n.value = %r" % (retval, n.value))
remaining -= n.value
if not remaining:
break
text = text[n.value:]
except Exception as e:
_complain("%s.write: %r" % (self.name, e))
raise
def writelines(self, lines):
try:
for line in lines:
self.write(line)
except Exception as e:
_complain("%s.writelines: %r" % (self.name, e))
raise
if real_stdout:
sys.stdout = UnicodeOutput(hStdout, None, STDOUT_FILENO, '<Unicode console stdout>')
else:
sys.stdout = UnicodeOutput(None, sys.stdout, old_stdout_fileno, '<Unicode redirected stdout>')
if real_stderr:
sys.stderr = UnicodeOutput(hStderr, None, STDERR_FILENO, '<Unicode console stderr>')
else:
sys.stderr = UnicodeOutput(None, sys.stderr, old_stderr_fileno, '<Unicode redirected stderr>')
except Exception as e:
_complain("exception %r while fixing up sys.stdout and sys.stderr" % (e,))
# While we're at it, let's unmangle the command-line arguments:
# This works around <http://bugs.python.org/issue2128>.
GetCommandLineW = WINFUNCTYPE(LPWSTR)(("GetCommandLineW", windll.kernel32))
CommandLineToArgvW = WINFUNCTYPE(POINTER(LPWSTR), LPCWSTR, POINTER(c_int))(("CommandLineToArgvW", windll.Shell32))
argc = c_int(0)
argv_unicode = CommandLineToArgvW(GetCommandLineW(), byref(argc))
argv = [argv_unicode[i].encode('utf-8') for i in xrange(0, argc.value)]
if not hasattr(sys, 'frozen'):
# If this is an executable produced by py2exe or bbfreeze, then it will
# have been invoked directly. Otherwise, unicode_argv[0] is the Python
# interpreter, so skip that.
argv = argv[1:]
# Also skip option arguments to the Python interpreter.
while len(argv) > 0:
arg = argv[0]
if not arg.startswith(u"-") or arg == u"-":
break
argv = argv[1:]
if arg == u'-m':
# sys.argv[0] should really be the absolute path of the module source,
# but never mind
break
if arg == u'-c':
argv[0] = u'-c'
break
# if you like:
sys.argv = argv
最後に、は、ΤΖΩΤΖΙΟΥがDejaVu Sans Monoを使用することを許可することを可能にします。
「コマンドウィンドウで使用可能なフォントの必要条件」Microsoft KB で、フォント要件とWindowsコンソール用の新しいフォントを追加する方法に関する情報を見つけることができます。
しかし基本的に、Vistaでは(おそらくWin7も):
HKEY_LOCAL_MACHINE_SOFTWARE\Microsoft\Windows NT\CurrentVersion\Console\TrueTypeFont
の下で、"0"
を"DejaVu Sans Mono"
に設定します。HKEY_CURRENT_USER\Console
の下のサブキーごとに、"FaceName"
を"DejaVu Sans Mono"
に設定します。XPでは、スレッド LockerGnomeフォーラムの「Changing Command Prompt fonts?」 を確認してください。
設定[〜#〜] pythonioencoding [〜#〜]システム変数:
> chcp 65001
> set PYTHONIOENCODING=utf-8
> python example.py
Encoding is utf-8
example.py
のソースは簡単です:
import sys
print "Encoding is", sys.stdin.encoding
私もこの厄介な問題を抱えており、MS WindowsでもLinuxと同じユニコード対応スクリプトを実行できないのが嫌でした。そこで、なんとか回避策を思いついた。
このスクリプト(たとえば、uniconsole.py
あなたのサイトのパッケージまたは何でも):
import sys, os
if sys.platform == "win32":
class UniStream(object):
__slots__= ("fileno", "softspace",)
def __init__(self, fileobject):
self.fileno = fileobject.fileno()
self.softspace = False
def write(self, text):
os.write(self.fileno, text.encode("utf_8") if isinstance(text, unicode) else text)
sys.stdout = UniStream(sys.stdout)
sys.stderr = UniStream(sys.stderr)
これはpythonバグ(またはwin32 unicodeコンソールのバグ、なんでも)を回避するようです。その後、関連するすべてのスクリプトに追加しました。
try:
import uniconsole
except ImportError:
sys.exc_clear() # could be just pass, of course
else:
del uniconsole # reduce pollution, not needed anymore
最後に、必要に応じてコンソールでスクリプトを実行します(chcp 65001
が実行され、フォントはLucida Console
。 (どうすれば_DejaVu Sans Mono
は代わりに使用できますが、レジストリをハッキングしてコンソールフォントとして選択すると、ビットマップフォントに戻ります。
これは手っ取り早いstdout
とstderr
の置換であり、raw_input
関連バグ(明らかに、触れないのでsys.stdin
まったく)。ところで、私はcp65001
のエイリアスutf_8
の中に encodings\aliases.py
標準ライブラリのファイル。
PythonをUTF-8にエンコードしますか?
>>>print u'ëèæîð'.encode('utf-8')
ëèæîð
Pythonはcp65001をUTF-8として認識しません。
これは、cmdの「コードページ」がシステムの「mbcs」と異なるためです。 「コードページ」を変更しましたが、python(実際には、ウィンドウ)は、まだ「mbcs」が変更されないと考えています。
いくつかのコメント:encodig
と.code
。これがあなたの例です。
C:\>chcp 65001
Active code page: 65001
C:\>\python25\python
...
>>> import sys
>>> sys.stdin.encoding
'cp65001'
>>> s=u'\u0065\u0066'
>>> s
u'ef'
>>> s.encode(sys.stdin.encoding)
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
LookupError: unknown encoding: cp65001
>>>
結論 - cp65001
はPythonの既知のエンコーディングではありません。 「UTF-16」などを試してください。
私にとっては、pythonプログラムの実行前にこの環境変数を設定しました:
set PYTHONIOENCODING=utf-8
このスレッドで問題は解決され、対処されています。
解決策は、Winでの世界的なサポートのためにUnicode UTF-8の選択を解除することです。再起動が必要になります。再起動すると、Pythonが通常に戻ります。
Winの手順:
問題を解決する方法の正確な場所を示す画像: