ファイルを受け取ったとします(ファイル、ドキュメント、画像、ビデオ、オーディオなど、何でもかまいません)。オペレーティングシステムや、Officeなどのファイルを作成するプログラム、さらにはデジタルカメラなどのハードウェアでも、ファイルに多くのメタデータが格納されていることを知っています。
MS Officeのようなこれらのファイルには、ファイル自体にメタデータの一部が含まれているものと、Windowsがファイルに含まれていないファイルに関するメタデータを「知っている」ように見えるものがあります。例えば。私はメモ帳ドキュメントを作成し、作成日、最終アクセスなどを知っています。
この情報の一部がファイルシステム自体に保存されていることは理解していますが、保存されている場所がわからないことがたくさんあります。
3つの質問があります。
Apache Tika を使用して独自のプログラムを作成し、メタデータを抽出できます。これは非常に簡単で、 ここ はその方法のチュートリアルです。 other の回答が示すように、すべてのタイプのファイルからメタデータを抽出する確実な方法はありませんが、Tikaは大丈夫です。
Unix/Linux file
コマンドは、ファイル内の多くのメタデータを抽出します。Windowsを使用している場合は、cygwinをインストールしてそのコマンドにアクセスできます。また、最近のWindows 10バージョンでは、WSL(LinuxのWindowsサブシステム)を使用できます。 )。
いくつかの出力例:
C:\Users\stewmark\ScreenShots>file *.png
ChangePW.png: PNG image data, 1167 x 1046, 8-bit/color RGB, non-interlaced
ChangePW_link.png: PNG image data, 603 x 468, 8-bit/color RGB, non-interlaced
Color_Wheel.png: PNG image data, 306 x 391, 8-bit/color RGB, non-interlaced
C:\Users\stewmark\>file *.xlsx
Project Plan_25March2016.xlsx: Microsoft Excel 2007+
Charges Preview SummaryClient_20160420.xlsx: Microsoft OOXML
Invoice Details Report_20160414.xlsx: Microsoft OOXML
C:\Users\stewmark\Music\Seal\Fly Like an Eagle>file *.mp3
01 Fly Like an Eagle [Radio Edit].mp3: Audio file with ID3 version 2.3.0
02 Fly Like an Eagle [Instrumental].mp3: Audio file with ID3 version 2.3.0
完成するには この回答の#2 が存在します exiftool が存在します。これにより、さまざまな種類のファイルのメタデータ(ファイル内およびファイルシステムメタデータ)を表示できます、JPEG画像からPDFファイルからMicrosoft Word文書までの範囲です。ファイルタイプを解析することはできませんが、ほとんどの場合、ファイルからメタデータを抽出することができました。
出力例:
$ exiftool /usr/share/texlive/texmf-dist/tex/latex/pdfslide/bg.jpg
ExifTool Version Number : 10.40
File Name : bg.jpg
Directory : /usr/share/texlive/texmf-dist/tex/latex/pdfslide
File Size : 11 kB
File Modification Date/Time : 2006:01:13 01:02:12+01:00
File Access Date/Time : 2018:09:14 18:40:02+02:00
File Inode Change Date/Time : 2017:03:20 12:29:01+01:00
File Permissions : rw-r--r--
File Type : JPEG
File Type Extension : jpg
MIME Type : image/jpeg
JFIF Version : 1.01
Resolution Unit : inches
X Resolution : 66
Y Resolution : 66
Image Width : 652
Image Height : 492
Encoding Process : Baseline DCT, Huffman coding
Bits Per Sample : 8
Color Components : 3
Y Cb Cr Sub Sampling : YCbCr4:2:0 (2 2)
Image Size : 652x492
Megapixels : 0.321
$ exiftool /usr/share/texlive/texmf-dist/tex/latex/notes/info.pdf
ExifTool Version Number : 10.40
File Name : info.pdf
Directory : /usr/share/texlive/texmf-dist/tex/latex/notes
File Size : 3.5 kB
File Modification Date/Time : 2008:09:20 20:31:15+02:00
File Access Date/Time : 2018:09:14 18:41:46+02:00
File Inode Change Date/Time : 2017:03:20 12:29:01+01:00
File Permissions : rw-r--r--
File Type : PDF
File Type Extension : pdf
MIME Type : application/pdf
PDF Version : 1.4
Linearized : No
Page Count : 1
XMP Toolkit : XMP toolkit 2.9.1-13, framework 1.6
About : cc6b5cda-bf5e-11e8-0000-fcfe446dd206
Producer : GPL Ghostscript 8.62
Modify Date : 2008:09:20 20:30:50+02:00
Create Date : 2008:09:20 20:30:50+02:00
Creator Tool : fig2dev Version 3.2 Patchlevel 4
Document ID : cc6b5cda-bf5e-11e8-0000-fcfe446dd206
Format : application/pdf
Title : info.fig
Creator : [email protected] \(Karl Berry\)
Author : [email protected] (Karl Berry)
$ exiftool /usr/share/clamav-testfiles/clam.ole.doc
ExifTool Version Number : 10.40
File Name : clam.ole.doc
Directory : /usr/share/clamav-testfiles
File Size : 16 kB
File Modification Date/Time : 2018:07:21 13:13:59+02:00
File Access Date/Time : 2018:09:14 18:43:18+02:00
File Inode Change Date/Time : 2018:08:01 06:51:25+02:00
File Permissions : rw-r--r--
File Type : DOC
File Type Extension : doc
MIME Type : application/msword
Title :
Subject :
Author : acab
Keywords :
Comments :
Template : Normal.dot
Last Modified By : acab
Revision Number : 1
Software : Microsoft Office Word
Total Edit Time : 0
Create Date : 2008:08:03 22:09:00
Modify Date : 2008:08:03 22:09:00
Pages : 1
Words : 3
Characters : 18
Security : None
Code Page : Windows Latin 1 (Western European)
Company :
Lines : 1
Paragraphs : 1
Char Count With Spaces : 20
App Version : 11.5606
Scale Crop : No
Links Up To Date : No
Shared Doc : No
Hyperlinks Changed : No
Title Of Parts :
Heading Pairs : Titolo, 1
Comp Obj User Type Len : 35
Comp Obj User Type : Documento di Microsoft Office Word
編集: Mark Stewart へのコメントですでにexiftoolに言及していることに気づきました この回答はfile
コマンドに言及しています 。