ファイル名の文字列サニタイザー

Question

文字列をサニタイズし、ファイル名に使用できるようにするphp関数を探しています。誰もが便利なものを知っていますか？

（私はそれを書くことができましたが、私はキャラクターを見落とすことを心配しています！）

編集：Windows NTFSファイルシステムにファイルを保存します。

Dominic Rodger · Accepted Answer

キャラクターを見落とすことを心配する代わりに、喜んで使用できるキャラクターのホワイトリストを使用してみませんか？たとえば、a-z、0-9、_、およびピリオドの単一インスタンス（.）だけを許可できます。これは明らかにほとんどのファイルシステムよりも制限されていますが、安全を保つ必要があります。

Sean Vieira · Answer

ドミニク・ロジャーが気づいた問題を修正するために、Tor Valamoのソリューションを少し調整して、couldを使用します。

// Remove anything which isn't a Word, whitespace, number // or any of the following caracters -_~,;[](). // If you don't need to handle multi-byte characters // you can use preg_replace rather than mb_ereg_replace // Thanks @Łukasz Rysiak! $file = mb_ereg_replace("([^\w\s\d\-_~,;.])", '', $file); // Remove any runs of periods (thanks falstro!) $file = mb_ereg_replace("([\.]{2,})", '', $file);

SequenceDigitale.com · Answer

Rawurlencode（）の使用はどうですか？ http://www.php.net/manual/en/function.rawurlencode.php

中国のイワナでも除菌する関数を次に示します。

public static function normalizeString ($str = '') { $str = strip_tags($str); $str = preg_replace('/[
	 ]+/', ' ', $str); $str = preg_replace('/[\"\*/\:\<\>\?\'\|]+/', ' ', $str); $str = strtolower($str); $str = html_entity_decode( $str, ENT_QUOTES, "utf-8" ); $str = htmlentities($str, ENT_QUOTES, "utf-8"); $str = preg_replace("/(&)([a-z])([a-z]+;)/i", '$2', $str); $str = str_replace(' ', '-', $str); $str = rawurlencode($str); $str = str_replace('%', '-', $str); return $str; }

ここに説明があります

HTMLタグを取り除く
ブレイク/タブ/リターンキャリッジの削除
フォルダーとファイル名の違法文字を削除
文字列を小文字にします
Éàûなどの外来アクセントをHTMLエンティティに変換して削除し、コードを削除して文字を保持します。
スペースをダッシュに置き換える
前の手順を通過してサーバー上の競合ファイル名を入力する可能性のある特殊な文字をエンコードします。例「中文百强网」
「％」をダッシュに置き換えて、ファイルのクエリ時にブラウザがファイルのリンクを書き換えないようにします。

OK、一部のファイル名は関連性がありませんが、ほとんどの場合は機能します。

例元の名前： "საბეჭდი-და-ტიპოგრაფიული。jpg"

出力名： "-E1-83-A1-E1-83-90-E1-83-91-E1-83-94-E1-83-AD-E1-83-93-E1-83-98--E1- 83-93-E1-83-90--E1-83-A2-E1-83-98-E1-83-9E-E1-83-9D-E1-83-92-E1-83-A0-E1-83 -90-E1-83-A4-E1-83-98-E1-83-A3-E1-83-9A-E1-83-98.jpg "

404エラーよりも、そのようにした方が良いです。

お役に立てば幸いです。

カール。

Philipp · Answer

ソリューション1-シンプルで効果的

$file_name = preg_replace( '/[^a-z0-9]+/', '-', strtolower( $url ) );

strtolower（）は、ファイル名が小文字であることを保証します（URL内では大文字と小文字は区別されませんが、NTFSファイル名内であるため）
[^a-z0-9]+は、ファイル名が文字と数字のみを保持することを保証します
無効な文字を'-'で置き換えると、ファイル名が読み取り可能になります

例：

URL: http://stackoverflow.com/questions/2021624/string-sanitizer-for-filename File: http-stackoverflow-com-questions-2021624-string-sanitizer-for-filename

ソリューション2-非常に長いURLの場合

URLコンテンツをキャッシュし、一意のファイル名のみが必要です。私はこの関数を使用します：

$file_name = md5( strtolower( $url ) )

これにより、固定長のファイル名が作成されます。 MD5ハッシュは、ほとんどの場合、この種の使用法に対して十分に一意です。

例：

URL: https://www.Amazon.com/Interstellar-Matthew-McConaughey/dp/B00TU9UFTS/ref=s9_nwrsa_gw_g318_i10_r?_encoding=UTF8&fpl=fresh&pf_rd_m=ATVPDKIKX0DER&pf_rd_s=desktop-1&pf_rd_r=BS5M1H560SMAR2JDKYX3&pf_rd_r=BS5M1H560SMAR2JDKYX3&pf_rd_t=36701&pf_rd_p=6822bacc-d4f0-466d-83a8-2c5e1d703f8e&pf_rd_p=6822bacc-d4f0-466d-83a8-2c5e1d703f8e&pf_rd_i=desktop File: 51301f3edb513f6543779c3a5433b01c

mgutt · Answer

これは、尋ねられたようにファイルシステムをサニタイズする方法です

function filter_filename($name) { // remove illegal file system characters https://en.wikipedia.org/wiki/Filename#Reserved_characters_and_words $name = str_replace(array_merge( array_map('chr', range(0, 31)), array('<', '>', ':', '"', '/', '\', '|', '?', '*') ), '', $name); // maximise filename length to 255 bytes http://serverfault.com/a/9548/44086 $ext = pathinfo($name, PATHINFO_EXTENSION); $name= mb_strcut(pathinfo($name, PATHINFO_FILENAME), 0, 255 - ($ext ? strlen($ext) + 1 : 0), mb_detect_encoding($name)) . ($ext ? '.' . $ext : ''); return $name; }

ファイルシステムでは他のすべてが許可されているため、質問には完全に答えられます...

...しかし、couldは、安全でないHTMLコンテキストで後で使用する場合、ファイル名に単一引用符'を許可することは危険です。

 ' onerror= 'alert(document.cookie).jpg

XSSホール：になります

<img src='<? echo $image ?>' /> // output: <img src=' ' onerror= 'alert(document.cookie)' />

そのため、人気のあるCMSソフトウェア Wordpress はそれを削除し、彼らは year によって year をハードな方法（多くのバグ報告）で学習しました。より多くのキャラクターを追加するのに便利です：

$special_chars = array("?", "[", "]", "/", "\", "=", "<", ">", ":", ";", ",", "'", "\"", "&", "$", "#", "*", "(", ")", "|", "~", "`", "!", "{", "}", "%", "+", chr(0)); // ... a few rows later are whitespaces removed as well ... preg_replace( '/[\r\n\t -]+/', '-', $filename )

最後に、リストには RI予約文字および RL安全でない文字リストの一部であるほとんどの文字が含まれるようになりました。

もちろん、これらすべての文字をHTML出力で単純にエンコードすることもできますが、ほとんどの開発者と私も、イディオム "Better safe than sorry"に従って、それらを事前に削除します。

最後に、これを使用することをお勧めします。

function filter_filename($filename, $beautify=true) { // sanitize filename $filename = preg_replace( '~ [<>:"/\|?*]| # file system reserved https://en.wikipedia.org/wiki/Filename#Reserved_characters_and_words [\x00-\x1F]| # control characters http://msdn.Microsoft.com/en-us/library/windows/desktop/aa365247%28v=vs.85%29.aspx [\x7F\xA0\xAD]| # non-printing characters DEL, NO-BREAK SPACE, SOFT HYPHEN [#@!$&\'()+,;=]| # URI reserved https://tools.ietf.org/html/rfc3986#section-2.2 [{}^\~`] # URL unsafe characters https://www.ietf.org/rfc/rfc1738.txt ~x', '-', $filename); // avoids ".", ".." or ".hiddenFiles" $filename = ltrim($filename, '.-'); // optional beautification if ($beautify) $filename = beautify_filename($filename); // maximize filename length to 255 bytes http://serverfault.com/a/9548/44086 $ext = pathinfo($filename, PATHINFO_EXTENSION); $filename = mb_strcut(pathinfo($filename, PATHINFO_FILENAME), 0, 255 - ($ext ? strlen($ext) + 1 : 0), mb_detect_encoding($filename)) . ($ext ? '.' . $ext : ''); return $filename; }

ファイルシステムに問題を引き起こさない他のすべては、追加機能の一部である必要があります。

function beautify_filename($filename) { // reduce consecutive characters $filename = preg_replace(array( // "file name.Zip" becomes "file-name.Zip" '/ +/', // "file___name.Zip" becomes "file-name.Zip" '/_+/', // "file---name.Zip" becomes "file-name.Zip" '/-+/' ), '-', $filename); $filename = preg_replace(array( // "file--.--.-.--name.Zip" becomes "file.name.Zip" '/-*\.-*/', // "file...name..Zip" becomes "file.name.Zip" '/\.{2,}/' ), '.', $filename); // lowercase for windows/unix interoperability http://support.Microsoft.com/kb/100625 $filename = mb_strtolower($filename, mb_detect_encoding($filename)); // ".file-name.-" becomes "file-name" $filename = trim($filename, '.-'); return $filename; }

この時点で、結果が空の場合はファイル名を生成する必要があり、UTF-8文字をエンコードするかどうかを決定できます。ただし、Webホスティングコンテキストで使用されるすべてのファイルシステムでUTF-8が許可されているため、その必要はありません。

あなたがしなければならない唯一のことは、あなたがსაბეჭდი_მანქანა.jpgまたは<img src>としてファイル名<a href>がこのURLになるようにurlencode()を使用することです（できればすべてのURLでそれを行うように）： http://www.maxrev.de/html/img/%E1%83%A1%E1%83%90%E1%83%91%E1%83%94%E1%83%AD% E1％83％93％E1％83％98_％E1％83％9B％E1％83％90％E1％83％9C％E1％83％A5％E1％83％90％E1％83％9C％E1％ 83％90.jpg

Stackoverflowはそれを行うので、ユーザーが行うようにこのリンクを投稿できます。
http://www.maxrev.de/html/img/საბეჭდი_მანქანა。jpg

したがって、これは完全な正当なファイル名であり、問題ではありません @ SequenceDigitale.comは彼の答えで言及されています。

Tor Valamo · Answer

preg_replace("[^\w\s\d\.\-_~,;:\(\]]", '', $file)

システムで許可されているものに応じて、有効な文字を追加または削除します。

または、ファイルを作成して、それが悪い場合はエラーを返すこともできます。

Mark Moline · Answer

さて、tempnam（）はあなたのためにそれを行います。

http://us2.php.net/manual/en/function.tempnam.php

しかし、それはまったく新しい名前を作成します。

既存の文字列をサニタイズするには、ユーザーが入力できるものを制限し、文字、数字、ピリオド、ハイフン、アンダースコアにするだけで、単純な正規表現でサニタイズします。どの文字をエスケープする必要があるかを確認します。そうしないと、誤検知が発生する可能性があります。

$sanitized = preg_replace('/[^a-zA-Z0-9\-\._]/','', $filename);

120DEV · Answer

PHPは、テキストを異なる形式にサニタイズする機能を提供します

filter.filters.sanitize

方法：

echo filter_var( "Lorem Ipsum has been the industry's",FILTER_SANITIZE_URL );

ブロック引用LoremIpsumhasbeentheindustry's

Sampson · Answer

次の式は、ナイスでクリーンで使用可能な文字列を作成します。

/[^a-z0-9\._-]+/gi

今日の財務：請求書をtoday-s-financial-billingに変える

CarlJohnson · Answer

Sean Vieiraのソリューションを少し調整して、単一のドットを許可するには、次を使用できます。

preg_replace("([^\w\s\d\.\-_~,;:]|[\.]{2,})", '', $file)

dhaupin · Answer

これらは少し重いかもしれませんが、どんな文字列でも「安全な」enスタイルのファイル名またはフォルダ名（または、スクラブされたスラッグなど）に無害化するのに十分な柔軟性があります。

1）完全なファイル名の作成（入力が完全に切り捨てられる場合のフォールバック名を使用）：

str_file($raw_string, $Word_separator, $file_extension, $fallback_name, $length);

2）または、完全なファイル名を作成せずにフィルターutilのみを使用する（厳密モードtrueは、ファイル名に[]または（）を許可しません）：

str_file_filter($string, $separator, $strict, $length);

3）そして、これらの機能は次のとおりです。

// Returns filesystem-safe string after cleaning, filtering, and trimming input function str_file_filter( $str, $sep = '_', $strict = false, $trim = 248) { $str = strip_tags(htmlspecialchars_decode(strtolower($str))); // lowercase -> decode -> strip tags $str = str_replace("%20", ' ', $str); // convert rogue %20s into spaces $str = preg_replace("/%[a-z0-9]{1,2}/i", '', $str); // remove hexy things $str = str_replace("&nbsp;", ' ', $str); // convert all nbsp into space $str = preg_replace("/&#?[a-z0-9]{2,8};/i", '', $str); // remove the other non-tag things $str = preg_replace("/\s+/", $sep, $str); // filter multiple spaces $str = preg_replace("/\.+/", '.', $str); // filter multiple periods $str = preg_replace("/^\.+/", '', $str); // trim leading period if ($strict) { $str = preg_replace("/([^\w\d\" . $sep . ".])/", '', $str); // only allow words and digits } else { $str = preg_replace("/([^\w\d\" . $sep . ".])/", '', $str); // allow words, digits, [], and () } $str = preg_replace("/\" . $sep . "+/", $sep, $str); // filter multiple separators $str = substr($str, 0, $trim); // trim filename to desired length, note 255 char limit on windows return $str; } // Returns full file name including fallback and extension function str_file( $str, $sep = '_', $ext = '', $default = '', $trim = 248) { // Run $str and/or $ext through filters to clean up strings $str = str_file_filter($str, $sep); $ext = '.' . str_file_filter($ext, '', true); // Default file name in case all chars are trimmed from $str, then ensure there is an id at tail if (empty($str) && empty($default)) { $str = 'no_name__' . date('Y-m-d_H-m_A') . '__' . uniqid(); } elseif (empty($str)) { $str = $default; } // Return completed string if (!empty($ext)) { return $str . $ext; } else { return $str; } }

だから、いくつかのユーザー入力が.....<div></div><script></script>& Weiß Göbel 中文百强网File name %20 %20 %21 %2C Décor /. /. . z \... y \...... x ./ “This name” is & 462^^ not       = that grrrreat -][09]()1234747) საბეჭდი-და-ტიპოგრაფიულიだとしましょう

そして、それをより使いやすいものに変換して、ファイル名の長さが255文字のtar.gzを作成します。以下に使用例を示します。注：この例には、概念実証として不正なtar.gz拡張が含まれています。ホワイトリストに対して文字列を作成した後、extをフィルタリングする必要があります。

$raw_str = '.....&lt;div&gt;&lt;/div&gt;<script></script>&amp; Weiß Göbel 中文百强网File name %20 %20 %21 %2C Décor /. /. . z \... y \...... x ./ “This name” is & 462^^ not &nbsp;&nbsp;&nbsp;&nbsp;&nbsp; = that grrrreat -][09]()1234747) საბეჭდი-და-ტიპოგრაფიული'; $fallback_str = 'generated_' . date('Y-m-d_H-m_A'); $bad_extension = '....t&+++a()r.gz[]'; echo str_file($raw_str, '_', $bad_extension, $fallback_str);

出力は次のようになります：_wei_gbel_file_name_dcor_._._._z_._y_._x_._this_name_is_462_not_that_grrrreat_][09]()1234747)_.tar.gz

ここで遊ぶことができます： https://3v4l.org/iSgi8

または要点： https://Gist.github.com/dhaupin/b109d3a8464239b7754a

EDIT：スペースの代わりに のスクリプトフィルターを更新、3v4lリンクを更新

ReverseEMF · Answer

これはすべて質問にかかっているようです。サーバーへのハッキングに使用できるファイル名を作成することは可能ですか（またはその他の何らかの損害を与える）。そうでない場合は、最終的に使用される場所であればどこでもファイルを作成してみることをお勧めします（これがオペレーティングシステムであるため、間違いありません）。オペレーティングシステムに分類させます。苦情があった場合は、その苦情を検証エラーとしてユーザーに移植してください。

これには、信頼性の高い移植性という追加の利点があります。これは、そのOSでファイル名が正しく形成されていない場合、すべてのオペレーティングシステムが文句を言うからです。

isファイル名で悪意のあることを行うことができる場合は、おそらく、常駐オペレーティングシステムでファイル名をテストする前に適用できる手段があります-ファイル名の完全な「衛生」よりも複雑でない手段。

DnD · Answer

私が今日知っている最高のものは静的メソッドです Strings :: webalize Netteフレームワークから。

ところで、これはすべての発音区別符号を基本に変換します。š=> sü=> uß=> ssなど。

ファイル名には、ドット「。」を追加する必要があります文字パラメータを許可します。

/** * Converts to ASCII. * @param string UTF-8 encoding * @return string ASCII */ public static function toAscii($s) { static $transliterator = NULL; if ($transliterator === NULL && class_exists('Transliterator', FALSE)) { $transliterator = \Transliterator::create('Any-Latin; Latin-ASCII'); } $s = preg_replace('#[^\x09\x0A\x0D\x20-\x7E\xA0-\x{2FF}\x{370}-\x{10FFFF}]#u', '', $s); $s = strtr($s, '`\'"^~?', "\x01\x02\x03\x04\x05\x06"); $s = str_replace( array("\xE2\x80\x9E", "\xE2\x80\x9C", "\xE2\x80\x9D", "\xE2\x80\x9A", "\xE2\x80\x98", "\xE2\x80\x99", "\xC2\xB0"), array("\x03", "\x03", "\x03", "\x02", "\x02", "\x02", "\x04"), $s ); if ($transliterator !== NULL) { $s = $transliterator->transliterate($s); } if (ICONV_IMPL === 'glibc') { $s = str_replace( array("\xC2\xBB", "\xC2\xAB", "\xE2\x80\xA6", "\xE2\x84\xA2", "\xC2\xA9", "\xC2\xAE"), array('>>', '<<', '...', 'TM', '(c)', '(R)'), $s ); $s = @iconv('UTF-8', 'WINDOWS-1250//TRANSLIT//IGNORE', $s); // intentionally @ $s = strtr($s, "\xa5\xa3\xbc\x8c\xa7\x8a\xaa\x8d\x8f\x8e\xaf\xb9\xb3\xbe\x9c\x9a\xba\x9d\x9f\x9e" . "\xbf\xc0\xc1\xc2\xc3\xc4\xc5\xc6\xc7\xc8\xc9\xca\xcb\xcc\xcd\xce\xcf\xd0\xd1\xd2\xd3" . "\xd4\xd5\xd6\xd7\xd8\xd9\xda\xdb\xdc\xdd\xde\xdf\xe0\xe1\xe2\xe3\xe4\xe5\xe6\xe7\xe8" . "\xe9\xea\xeb\xec\xed\xee\xef\xf0\xf1\xf2\xf3\xf4\xf5\xf6\xf8\xf9\xfa\xfb\xfc\xfd\xfe" . "\x96\xa0\x8b\x97\x9b\xa6\xad\xb7", 'ALLSSSSTZZZallssstzzzRAAAALCCCEEEEIIDDNNOOOOxRUUUUYTsraaaalccceeeeiiddnnooooruuuuyt- <->|-.'); $s = preg_replace('#[^\x00-\x7F]++#', '', $s); } else { $s = @iconv('UTF-8', 'ASCII//TRANSLIT//IGNORE', $s); // intentionally @ } $s = str_replace(array('`', "'", '"', '^', '~', '?'), '', $s); return strtr($s, "\x01\x02\x03\x04\x05\x06", '`\'"^~?'); } /** * Converts to web safe characters [a-z0-9-] text. * @param string UTF-8 encoding * @param string allowed characters * @param bool * @return string */ public static function webalize($s, $charlist = NULL, $lower = TRUE) { $s = self::toAscii($s); if ($lower) { $s = strtolower($s); } $s = preg_replace('#[^a-z0-9' . preg_quote($charlist, '#') . ']+#i', '-', $s); $s = trim($s, '-'); return $s; }

gameover · Answer

ユーザーが指定したファイル名の/および..は有害な場合があります。したがって、次のような方法でこれらを取り除く必要があります。

$fname = str_replace('..', '', $fname); $fname = str_replace('/', '', $fname);

commonpike · Answer

安全：NOT "a-zA-Z0-9_-"のすべてのシーケンスをダッシュに置き換えます。自分で拡張機能を追加します。

$name = preg_replace('/[^a-zA-Z0-9_-]+/', '-', strtolower($name)).$extension;

ghostdog74 · Answer

一方通行

$bad='/[\/:*?"<>|]/'; $string = 'fi?le*'; function sanitize($str,$pat) { return preg_replace($pat,"",$str); } echo sanitize($string,$bad);