数日前、Googleのジョン・ミューラーはこう言った:
私たちは、何かが重複していることを理解し、それを適切に処理しようとします。そのため、Webページなどのテキストコンテンツを使用して、何かが重複しているかどうかを認識し、検索で表示するときにそれを除外しようとします。私たちはできる限り画像を使ってそれを行い、ビデオでもそれを試みます
したがって、複数の異なるサービスでビデオをホストすると、検索結果に1回ではなく5回表示されることを意味します。
質問:ビデオが本当に重複しているかどうかをGoogleはどのように識別できますか?
Youtube、Vimeo、Dailymotionに同じ動画をアップロードすると、これらのサイトごとにトランスコードが異なるため、動画のハッシュが異なります...
ファイルハッシュを比較するだけでなく、一致するビデオにはlotがあります。 Googleが開発したYouTube用のビデオマッチングシステム全体 ContentID は、アップロードされたすべてのビデオを著作権で保護されたビデオのライブラリと照合します。
簡単な説明のために、画像から始めましょう。 (Googleはそこでハッシュを照合する以上のことを行います。)画像を1pxでもサイズ変更/トリミングすると、異なるファイルハッシュが提供されます。そのため、類似性を判断するために多くの手法が採用されています。
画像が同じサイズではない場合、もう一方と一致するようにサイズを変更します。次に、ピクセルごとに比較します。もちろん、ほとんどのピクセルはわずかに異なりますが、非常に近くなります。そのため、画像全体で、ピクセル間の平均「差」があるしきい値よりも小さい場合、画像は同じです。
それをビデオ用に拡張して、ビデオのいくつかのフレームとオーディオのスニペットに対してこのプロセスを繰り返すことができます。
もちろん、GoogleのContentIDは私の説明よりもはるかに高度ですが、うまくいけば基本的なアイデアが得られます。
参考文献:
アップロードするウェブサイトごとに、異なるサウンド、フレームレート、エンコードを使用して、異なるバージョンのビデオを作成してみてください。
Googleは、Shazamがオーディオのタイムライン(全体またはクリップ)にマップする方法と同じように、タイムラインをビデオフレームにマップします。