JavaScriptを使用してバイナリファイルのコンテンツを取得し、base64でエンコードし、Python

Question

XMLHttpRequest（最近のWebkitを使用）を使用してバイナリファイルをダウンロードし、この単純な関数を使用してその内容をbase64エンコードしようとしています。

_function getBinary(file){ var xhr = new XMLHttpRequest(); xhr.open("GET", file, false); xhr.overrideMimeType("text/plain; charset=x-user-defined"); xhr.send(null); return xhr.responseText; } function base64encode(binary) { return btoa(unescape(encodeURIComponent(binary))); } var binary = getBinary('http://some.tld/sample.pdf'); var base64encoded = base64encode(binary); _

サイドノートとして、上記はすべてbtoa()およびencodeURIComponent()を含む標準のJavascriptのものです。 https://developer.mozilla.org/en/DOM/window.btoa

これは非常にスムーズに機能し、JavaScriptを使用してbase64コンテンツをデコードすることもできます。

_function base64decode(base64) { return decodeURIComponent(escape(atob(base64))); } var decodedBinary = base64decode(base64encoded); decodedBinary === binary // true _

ここで、PythonがJSON文字列を消費して_base64encoded_文字列値を取得する）を使用してbase64でエンコードされたコンテンツをデコードしたいと思います。

_import urllib import base64 # ... retrieving of base64 encoded string through JSON base64 = "77+9UE5HDQ……………oaCgA=" source_contents = urllib.unquote(base64.b64decode(base64)) destination_file = open(destination, 'wb') destination_file.write(source_contents) destination_file.close() _

しかし、結果のファイルは無効で、UTF-8、エンコード、またはまだ私には不明な何かで操作がメッセージされています。

UTF-8コンテンツを宛先ファイルに配置する前にデコードしようとすると、エラーが発生します。

_import urllib import base64 # ... retrieving of base64 encoded string through JSON base64 = "77+9UE5HDQ……………oaCgA=" source_contents = urllib.unquote(base64.b64decode(base64)).decode('utf-8') destination_file = open(destination, 'wb') destination_file.write(source_contents) destination_file.close() $ python test.py // ... UnicodeEncodeError: 'ascii' codec can't encode character u'\ufffd' in position 0: ordinal not in range(128) _

補足として、ここに同じファイルの2つのテキスト表現のスクリーンショットがあります。左：オリジナル。右側：base64でデコードされた文字列から作成されたもの： http://cl.ly/0U3G34110z3c132O2e2x

ファイルを再作成しようとしたときに、エンコードに関するこれらの問題を回避するための既知のトリックはありますか？これを自分でどのように達成しますか？

どんな助けやヒントも大歓迎です:)

NiKo · Accepted Answer

だから私は自分自身に答えている-それはごめんなさい-しかし、それは私がそうであったように失われた誰かにとって役に立つかもしれないと思う;;）

したがって、 ArrayBuffer を使用し、responseTypeオブジェクトインスタンスのXMLHttpRequestプロパティをarraybufferに設定して、バイトのネイティブ配列を取得する必要があります。次の便利な関数を使用してbase64に変換します（ there が見つかりました。著者はここで祝福されるかもしれません）：

_function base64ArrayBuffer(arrayBuffer) { var base64 = '' var encodings = 'ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789+/' var bytes = new Uint8Array(arrayBuffer) var byteLength = bytes.byteLength var byteRemainder = byteLength % 3 var mainLength = byteLength - byteRemainder var a, b, c, d var chunk // Main loop deals with bytes in chunks of 3 for (var i = 0; i < mainLength; i = i + 3) { // Combine the three bytes into a single integer chunk = (bytes[i] << 16) | (bytes[i + 1] << 8) | bytes[i + 2] // Use bitmasks to extract 6-bit segments from the triplet a = (chunk & 16515072) >> 18 // 16515072 = (2^6 - 1) << 18 b = (chunk & 258048) >> 12 // 258048 = (2^6 - 1) << 12 c = (chunk & 4032) >> 6 // 4032 = (2^6 - 1) << 6 d = chunk & 63 // 63 = 2^6 - 1 // Convert the raw binary segments to the appropriate ASCII encoding base64 += encodings[a] + encodings[b] + encodings[c] + encodings[d] } // Deal with the remaining bytes and padding if (byteRemainder == 1) { chunk = bytes[mainLength] a = (chunk & 252) >> 2 // 252 = (2^6 - 1) << 2 // Set the 4 least significant bits to zero b = (chunk & 3) << 4 // 3 = 2^2 - 1 base64 += encodings[a] + encodings[b] + '==' } else if (byteRemainder == 2) { chunk = (bytes[mainLength] << 8) | bytes[mainLength + 1] a = (chunk & 64512) >> 10 // 64512 = (2^6 - 1) << 10 b = (chunk & 1008) >> 4 // 1008 = (2^6 - 1) << 4 // Set the 2 least significant bits to zero c = (chunk & 15) << 2 // 15 = 2^4 - 1 base64 += encodings[a] + encodings[b] + encodings[c] + '=' } return base64 } _

だからここに動作するコードがあります：

_var xhr = new XMLHttpRequest(); xhr.open('GET', 'http://some.tld/favicon.png', false); xhr.responseType = 'arraybuffer'; xhr.onload = function(e) { console.log(base64ArrayBuffer(e.currentTarget.response)); }; xhr.send(); _

これは、バイナリファイルの内容を表すvalidbase64エンコード文字列を記録します。

編集：ArrayBufferへのアクセス権がなく、btoa()が文字のエンコードに失敗する古いブラウザの場合、別の方法があります任意のバイナリのbase64エンコードバージョンを取得するには：

_function getBinary(file){ var xhr = new XMLHttpRequest(); xhr.open("GET", file, false); xhr.overrideMimeType("text/plain; charset=x-user-defined"); xhr.send(null); return xhr.responseText; } function base64Encode(str) { var CHARS = "ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789+/"; var out = "", i = 0, len = str.length, c1, c2, c3; while (i < len) { c1 = str.charCodeAt(i++) & 0xff; if (i == len) { out += CHARS.charAt(c1 >> 2); out += CHARS.charAt((c1 & 0x3) << 4); out += "=="; break; } c2 = str.charCodeAt(i++); if (i == len) { out += CHARS.charAt(c1 >> 2); out += CHARS.charAt(((c1 & 0x3)<< 4) | ((c2 & 0xF0) >> 4)); out += CHARS.charAt((c2 & 0xF) << 2); out += "="; break; } c3 = str.charCodeAt(i++); out += CHARS.charAt(c1 >> 2); out += CHARS.charAt(((c1 & 0x3) << 4) | ((c2 & 0xF0) >> 4)); out += CHARS.charAt(((c2 & 0xF) << 2) | ((c3 & 0xC0) >> 6)); out += CHARS.charAt(c3 & 0x3F); } return out; } console.log(base64Encode(getBinary('http://www.google.fr/images/srpr/logo3w.png'))); _

これが他の人の助けになることを願っています。