web-dev-qa-db-ja.com

バイト配列からファイル拡張子を抽出する方法

データベースにバイト配列があります。

Javaでバイト配列からファイル拡張子(mime/type)を抽出する方法は?

21
emilan

これがアップロードされたファイルの保存用である場合:

  • ファイル名拡張子の列を作成する
  • ブラウザから送信されたMIMEタイプの列を作成する

元のファイルがなく、バイトしかない場合は、いくつかの良い解決策があります。

ライブラリを使用できる場合は、mime-utilを使用してバイトを検査します。

http://technopaper.blogspot.com/2009/03/identifying-mime-using-mime-util.html

独自のバイト検出器を構築する必要がある場合、最も一般的な開始バイトの多くを以下に示します。

"BC" => bitcode,
"BM" => bitmap,
"BZ" => bzip,
"MZ" => exe,
"SIMPLE"=> fits,
"GIF8" => gif,
"GKSM" => gks,
[0x01,0xDA].pack('c*') => iris_rgb,
[0xF1,0x00,0x40,0xBB].pack('c*') => itc,
[0xFF,0xD8].pack('c*') => jpeg,
"IIN1" => niff,
"MThd" => midi,
"%PDF" => pdf,
"VIEW" => pm,
[0x89].pack('c*') + "PNG" => png,
"%!" => postscript,
"Y" + [0xA6].pack('c*') + "j" + [0x95].pack('c*') => Sun_rasterfile,
"MM*" + [0x00].pack('c*') => tiff,
"II*" + [0x00].pack('c*') => tiff,
"gimp xcf" => gimp_xcf,
"#FIG" => xfig,
"/* XPM */" => xpm,
[0x23,0x21].pack('c*') => Shebang,
[0x1F,0x9D].pack('c*') => compress,
[0x1F,0x8B].pack('c*') => gzip,
"PK" + [0x03,0x04].pack('c*') => pkzip,
"MZ" => dos_os2_windows_executable,
".ELF" => unix_elf,
[0x99,0x00].pack('c*') => pgp_public_ring,
[0x95,0x01].pack('c*') => pgp_security_ring,
[0x95,0x00].pack('c*') => pgp_security_ring,
[0xA6,0x00].pack('c*') => pgp_encrypted_data,
[0xD0,0xCF,0x11,0xE0].pack('c*') => docfile
14

JDKURLConnectionクラスに適切なメソッドがあることがわかりました。次の回答を参照してください: JavaでのファイルのMIMEタイプの取得

ファイルの代わりにバイト配列からファイル拡張子を抽出する必要がある場合は、Java.io.ByteArrayInputStream(ファイルからバイトを読み取るクラス)の代わりにJava.io.FileInputStream(バイト配列からバイトを読み取るクラス)を使用するだけです。次の例では:

byte[] content = ;
InputStream is = new ByteArrayInputStream(content);
String mimeType = URLConnection.guessContentTypeFromStream(is);
 //...close stream

お役に立てれば...

38

多分私はファイル拡張子のために私のDBに追加の列を保存する必要があります。

これは、少なくとも次の理由により、データベースの内容に基づいてMIMEタイプを推測するよりも優れたソリューションです。

  • ドキュメントソースからのMIMEタイプがある場合、それを保存して使用できます。
  • (潜在的に)ユーザーがドキュメントを提出するときにMIMEタイプを指定するように要求できます。
  • もしあなたがする必要がある MIMEタイプを理解するためにいくつかのヒューリスティックベースのスキームを使用します:
    • テーブル行を抽出してからN回ではなく、テーブル行を作成する前に1回作業できます。
    • ヒューリスティックが適切な答えを返さない場合を報告し、おそらくユーザーにファイルタイプが実際に何であるかを言うように依頼できます。

(私は保証されない可能性があるいくつかの仮定を行っていますが、この質問は、より大きなシステムがどのように機能することを意図しているかについての手掛かりを与えません。)

2
Stephen C