大きなクラウドベースのアプリケーションを分析しています。分析中に、このアプリで使用されている最大のファイル(> 3 MB)の1つが非常に小さい(16x16)icon.png
ファイルであることがわかりました。
さらなる分析の結果、ファイルには60000行を超えるメタデータが含まれており、そのほとんどが<rdf:li>
タグ内の<photoshop:DocumentAncestors>
タグで構成されていることがわかりました。次に例を示します。
<photoshop:DocumentAncestors>
<rdf:Bag>
<rdf:li>0</rdf:li>
<rdf:li>00094172844843523D09FDF552DF119E</rdf:li>
<rdf:li>000B84DD32F5ABCC8D7B5E8681465EE9</rdf:li>
<rdf:li>0013FA92942B6EC5451A4D9D4972AD7E</rdf:li>
<rdf:li>0017ED7FA617555EF7D04797B72E2946</rdf:li>
<rdf:li>0030491E2F4C927C3D67B20A9710BC01</rdf:li>
<rdf:li>003287E12D0B5EA81D0AED63DDC335E5</rdf:li>
<rdf:li>004657FECAF7D9DF3A459A2C0820D29A</rdf:li>
<rdf:li>0048B527A1E225804FA1FE3E90A74F50</rdf:li>
<rdf:li>0061E7DAD11961FF150102241FDE8BF5</rdf:li>
このメタデータが「自然に」ここに配置されているか、それともいくつかの隠しデータが含まれているかどうかを確認するにはどうすればよいですか?
このメタデータには、ファイルの作成中に使用されたドキュメントIDがリストされているようです。この記事をチェックできます: http://www.hackerfactor.com/blog/index.php?/archives/2013/05/23.html 、「祖先 "セクション。
したがって、アドビアプリケーションによって「自然に」そこに配置できる技術メタデータが含まれています。
リンクしたものはすべて安全だと思います。申し訳ありませんが、可能な場合は修正するように努めます。
メタデータ数が同様に多い候補がいくつかあります。レポートのリンクは、グーグルの「* DocumentAncestorsのアイテムの数が多すぎます」から発生します(これは、VirusTotalで使用されているようです exiftool から取得されます)。
jpgまたはmp3(レポート) 、 スパムテキスト付きのpng(レポート) 、 png単独(レポート) 、および2つの同じmd5(31a02712515ace35f1a593c14a7b5150)ですが、これは例のように「0」で始まります。 png(レポート) とライブサンプルpng サムスンタブレット(サンプル) 。サンプルはハッシュからのものです。他はサンプルを作り出さなかった。
「samsung」サンプルのヒストグラム(私は107,000エントリの各バイトをすばやく分割し、ソートして「uniq」を介して送信しました)は、バイトが完全にランダムではないことを示す場合を除いて、実用性が限られている場合があります。一部の操作はおそらくエンコードされているので、これは予想されるかもしれませんが、純粋にランダムなUUIDを生成するプログラミングエラーを想定していました。これは最もきれいな絵ではないので、私はそれに取り組むことができます。 10進数17(0x11)は下部の大きなスパイクです。
いくつかの実験を行って、エンコードされたデータ(ヒストグラムのポイントでもある)があるかどうかを確認しましたが、ほとんどの場合、ファイルの処理中に生成されたメタデータだけとしてそれに近づきました。
ここにいくつかの追加の追求があります:
Adobeでの別のフォーラム投稿 Photoshop CCは問題のあるJPEGを作成し、OSX Preview.appが気を失います リンクされたファイル(Note4Cover1.jpg)を使用します。
アイテムの数が多い を使用している他の人、このリンクは余分なデータを削除する方法を提案していると思います(必要なものを削除する可能性があることを警告します):
exiftool -xmp:all= -tagsfromfile @ "-all:all<xmp:all" FILE
警告:GIMPを使用して新しい名前で開いて保存すると、保存するように設定されているチェックボックスに関係なく、データが削除されることがわかりました。ここで他の回答によってリンクされた基準に従ってそれが起こるはずがないようです。
そして最後に、 differ (differ.readthedocs.org)は画像レポートライブラリです。 便利なように見えますが であり、(exiftoolやimagemagickなどの)ツールから統計情報をダンプするため、評価はしていません( github )の設定は少し難しいかもしれません。法医学データにはまだ役立つかもしれません。