PHP5(cgi)を使用してテンプレートファイルをファイルシステムから出力し、生のHTMLを吐き出す問題があります。
private function fetch($name) {
$path = $this->j->config['template_path'] . $name . '.html';
if (!file_exists($path)) {
dbgerror('Could not find the template "' . $name . '" in ' . $path);
}
$f = fopen($path, 'r');
$t = fread($f, filesize($path));
fclose($f);
if (substr($t, 0, 3) == b'\xef\xbb\xbf') {
$t = substr($t, 3);
}
return $t;
}
BOM修正を追加しましたが、Firefoxがそれを受け入れる際にまだ問題があります。ここでライブコピーを見ることができます: http://ircb.in/jisti/ (そして私が投げたテンプレートファイル http://ircb.in/jisti/home.html チェックアウトしたい場合)
これを修正する方法はありますか? o_o
次のコードを使用してutf8 bomを削除します
//Remove UTF8 Bom
function remove_utf8_bom($text)
{
$bom = pack('H*','EFBBBF');
$text = preg_replace("/^$bom/", '', $text);
return $text;
}
試してください:
// -------- read the file-content ----
$str = file_get_contents($source_file);
// -------- remove the utf-8 BOM ----
$str = str_replace("\xEF\xBB\xBF",'',$str);
// -------- get the Object from JSON ----
$obj = json_decode($str);
:)
UnicodeコードポイントU + FEFFであるBOMを削除する別の方法
$str = preg_replace('/\x{FEFF}/u', '', $file);
b'\xef\xbb\xbf'
はリテラル文字列「\ xef\xbb\xbf」を表します。 BOMを確認する場合は、二重引用符を使用する必要があるため、\x
シーケンスは実際にはバイトに解釈されます:
"\xef\xbb\xbf"
ファイルには、単一の主要なBOMよりも多くのゴミが含まれているようです。
$ curl http://ircb.in/jisti/ | xxd
0000000: efbb bfef bbbf efbb bfef bbbf efbb bfef ................
0000010: bbbf efbb bf3c 2144 4f43 5459 5045 2068 .....<!DOCTYPE h
0000020: 746d 6c3e 0a3c 6874 6d6c 3e0a 3c68 6561 tml>.<html>.<hea
...
このグローバル関数は、UTF-8システムのベース文字セットを解決します。戦車!
function prepareCharset($str) {
// set default encode
mb_internal_encoding('UTF-8');
// pre filter
if (empty($str)) {
return $str;
}
// get charset
$charset = mb_detect_encoding($str, array('ISO-8859-1', 'UTF-8', 'ASCII'));
if (stristr($charset, 'utf') || stristr($charset, 'iso')) {
$str = iconv('ISO-8859-1', 'UTF-8//TRANSLIT', utf8_decode($str));
} else {
$str = mb_convert_encoding($str, 'UTF-8', 'UTF-8');
}
// remove BOM
$str = urldecode(str_replace("%C2%81", '', urlencode($str)));
// prepare string
return $str;
}
誰かがcsv importを使用している場合は、以下のコードが便利です
$header = fgetcsv($handle);
foreach($header as $key=> $val) {
$bom = pack('H*','EFBBBF');
$val = preg_replace("/^$bom/", '', $val);
$header[$key] = $val;
}
同じ仕事をするための追加の方法:
function remove_utf8_bom_head($text) {
if(substr(bin2hex($text), 0, 6) === 'efbbbf') {
$text = substr($text, 3);
}
return $text;
}
私が見つけた他の方法は私の場合には機能しません。
特別な場合に役立つことを願っています。
pack
関数を使用しないソリューション:
$a = "1";
var_dump($a); // string(4) "1"
function deleteBom($text)
{
return preg_replace("/^\xEF\xBB\xBF/", '', $text);
}
var_dump(deleteBom($a)); // string(1) "1"
これが役立つかもしれません。私の思考プロセスを拡大してくれないかどうか教えてください。
<?php
//
// labled TESTINGSTRIPZ.php
//
define('CHARSET', 'UTF-8');
$stringy = "\xef\xbb\xbf\"quoted text\" ";
$str_find_array = array( "\xef\xbb\xbf");
$str_replace_array = array( '');
$RESULT =
trim(
mb_convert_encoding(
str_replace(
$str_find_array,
$str_replace_array,
strip_tags( $stringy )
),
'UTF-8',
mb_detect_encoding(
strip_tags($stringy)
)
)
);
print("YOUR RESULT IS: " . $RESULT.PHP_EOL);
?>
結果:
terminal$ php TESTINGSTRIPZ.php
YOUR RESULT IS: "quoted text" // < with no hidden char.
障害のあるソフトウェアを使用する場合、BOMパーツが保存ごとに増加することがあります。
だから私はこれを使ってそれを取り除きます。
function remove_utf8_bom($text) {
$bom = pack('H*','EFBBBF');
while (preg_match("/^$bom/", $text)) {
$text = preg_replace("/^$bom/", '', $text);
}
return $text;
}