複数のUTF-8 BOMシーケンスを削除する方法

Question

PHP5（cgi）を使用してテンプレートファイルをファイルシステムから出力し、生のHTMLを吐き出す問題があります。

private function fetch($name) { $path = $this->j->config['template_path'] . $name . '.html'; if (!file_exists($path)) { dbgerror('Could not find the template "' . $name . '" in ' . $path); } $f = fopen($path, 'r'); $t = fread($f, filesize($path)); fclose($f); if (substr($t, 0, 3) == b'\xef\xbb\xbf') { $t = substr($t, 3); } return $t; }

BOM修正を追加しましたが、Firefoxがそれを受け入れる際にまだ問題があります。ここでライブコピーを見ることができます： http://ircb.in/jisti/ （そして私が投げたテンプレートファイル http://ircb.in/jisti/home.html チェックアウトしたい場合）

これを修正する方法はありますか？ o_o

jasonhao · Accepted Answer

次のコードを使用してutf8 bomを削除します

//Remove UTF8 Bom function remove_utf8_bom($text) { $bom = pack('H*','EFBBBF'); $text = preg_replace("/^$bom/", '', $text); return $text; }

o1max · Answer

試してください：

// -------- read the file-content ---- $str = file_get_contents($source_file); // -------- remove the utf-8 BOM ---- $str = str_replace("\xEF\xBB\xBF",'',$str); // -------- get the Object from JSON ---- $obj = json_decode($str);

:)

Dean Or · Answer

UnicodeコードポイントU + FEFFであるBOMを削除する別の方法

$str = preg_replace('/\x{FEFF}/u', '', $file);

deceze · Answer

b'\xef\xbb\xbf'はリテラル文字列「\ xef\xbb\xbf」を表します。 BOMを確認する場合は、二重引用符を使用する必要があるため、\xシーケンスは実際にはバイトに解釈されます：

"\xef\xbb\xbf"

ファイルには、単一の主要なBOMよりも多くのゴミが含まれているようです。

$ curl http://ircb.in/jisti/ | xxd 0000000: efbb bfef bbbf efbb bfef bbbf efbb bfef ................ 0000010: bbbf efbb bf3c 2144 4f43 5459 5045 2068 .....<!DOCTYPE h 0000020: 746d 6c3e 0a3c 6874 6d6c 3e0a 3c68 6561 tml>.<html>.<hea ...

Patrick Otto · Answer

このグローバル関数は、UTF-8システムのベース文字セットを解決します。戦車！

function prepareCharset($str) { // set default encode mb_internal_encoding('UTF-8'); // pre filter if (empty($str)) { return $str; } // get charset $charset = mb_detect_encoding($str, array('ISO-8859-1', 'UTF-8', 'ASCII')); if (stristr($charset, 'utf') || stristr($charset, 'iso')) { $str = iconv('ISO-8859-1', 'UTF-8//TRANSLIT', utf8_decode($str)); } else { $str = mb_convert_encoding($str, 'UTF-8', 'UTF-8'); } // remove BOM $str = urldecode(str_replace("%C2%81", '', urlencode($str))); // prepare string return $str; }

phvish · Answer

誰かがcsv importを使用している場合は、以下のコードが便利です

 $header = fgetcsv($handle); foreach($header as $key=> $val) { $bom = pack('H*','EFBBBF'); $val = preg_replace("/^$bom/", '', $val); $header[$key] = $val; }

Alfred Huang · Answer

同じ仕事をするための追加の方法：

function remove_utf8_bom_head($text) { if(substr(bin2hex($text), 0, 6) === 'efbbbf') { $text = substr($text, 3); } return $text; }

私が見つけた他の方法は私の場合には機能しません。

特別な場合に役立つことを願っています。

ktran · Answer

pack関数を使用しないソリューション：

$a = "1"; var_dump($a); // string(4) "1" function deleteBom($text) { return preg_replace("/^\xEF\xBB\xBF/", '', $text); } var_dump(deleteBom($a)); // string(1) "1"

JayRizzo · Answer

これが役立つかもしれません。私の思考プロセスを拡大してくれないかどうか教えてください。

<?php // // labled TESTINGSTRIPZ.php // define('CHARSET', 'UTF-8'); $stringy = "\xef\xbb\xbf\"quoted text\" "; $str_find_array = array( "\xef\xbb\xbf"); $str_replace_array = array( ''); $RESULT = trim( mb_convert_encoding( str_replace( $str_find_array, $str_replace_array, strip_tags( $stringy ) ), 'UTF-8', mb_detect_encoding( strip_tags($stringy) ) ) ); print("YOUR RESULT IS: " . $RESULT.PHP_EOL); ?>

結果：

terminal$ php TESTINGSTRIPZ.php YOUR RESULT IS: "quoted text" // < with no hidden char.

Juergen · Answer

障害のあるソフトウェアを使用する場合、BOMパーツが保存ごとに増加することがあります。

だから私はこれを使ってそれを取り除きます。

function remove_utf8_bom($text) { $bom = pack('H*','EFBBBF'); while (preg_match("/^$bom/", $text)) { $text = preg_replace("/^$bom/", '', $text); } return $text;

}