ユーザーがドキュメント、videosをアップロードできるWebアプリケーションを構築したい、images、music、それらを検索する機能を提供します。 Dropbox+セマンティック検索と考えてください。
ユーザーが新しいファイルをアップロードしたとき。 Document1.docx、ファイルのコンテンツに基づいてタグを自動的に生成するにはどうすればよいですか?つまり、ファイルの内容を判別するためにユーザー入力は必要ありません。 Document1.docxがデータマイニングに関する研究論文であるとすると、ユーザーがdata mining、またはresearch paper、またはdocument1、そのファイルは検索結果に返されます。 データマイニングおよび研究論文が自動生成される可能性のあるタグである可能性が最も高いその与えられたドキュメントのために。
1。この問題にどのアルゴリズムをお勧めしますか?
2。これを実行できる自然言語ライブラリはありますか?
。タグ付けの精度を向上させるには、どの機械学習手法を検討する必要がありますか?
4。これをビデオと画像の自動タグ付けに拡張するにはどうすればよいですか?
前もって感謝します!
このタイプのタスクの最も一般的な教師なし機械学習モデルは 潜在ディリクレ割り当て (LDA)です。このモデルは、ドキュメントの単語に基づいて、ドキュメントのコーパスからトピックのコレクションを自動的に推測します。ドキュメントのセットに対してLDAを実行すると、特定のトピックを検索するときに確率で単語が割り当てられ、その単語に関連する可能性が最も高いドキュメントを取得できます。
画像や音楽にもいくつかの拡張機能があります。 http://cseweb.ucsd.edu/~dhu/docs/research_exam09.pdf を参照してください。
LDAには、いくつかの言語でいくつかの効率的な実装があります。
これらの連中はLDAの代替案を提案している。
ソーシャルレコメンダーシステムの自動タグ推奨アルゴリズム http://research.Microsoft.com/pubs/79896/tagging.pdf
論文全体を読んだことはありませんが、2つのアルゴリズムがあります。
更新:私はこれをさらに調査し、別のアプローチを見つけました。基本的に、これは2段階のアプローチであり、理解と実装は非常に簡単です。 10万件のドキュメントには遅すぎますが、(おそらく)1000件のドキュメントに対して優れたパフォーマンスを発揮します(したがって、1人のユーザーのドキュメントにタグを付けるのに最適です)。このアプローチを試し、パフォーマンス/使いやすさについて報告します。
それまでの間、これがアプローチです:
このキーフレーズ抽出アルゴリズム/パッケージを使用して、テキストドキュメントにタグを付けることができます。 http://www.nzdl.org/Kea/ 現在、限られた種類のドキュメント(おそらく農業および医療)をサポートしていますが、要件に応じてトレーニングできます。
非常に正確なオブジェクト検出(それ自体に欠点がある)を行わない限り、画像/ビデオ部分がどのように機能するかはわかりません。どのように計画していますか?
Doc-Tag( https://www.Doc-Tags.com )が必要です。これは、自動的に監視されない-コンテキスト的に正確なドキュメントタグを生成する商用製品です。組み込みのレポート機能により、この製品は軽量のドキュメント管理システムになります。
独自のアプローチをカスタマイズしたい開発者向け-ソースコードが利用でき(非常に安価)、バックエンドサービスxAIgent( https://xAIgent.com )は非常に安価に使用できます。
本日は、質問に答えるためにブログ記事を投稿しました。
http://scottge.net/2015/06/30/automatic-image-and-video-tagging/
画像と動画からキーワードを自動的に抽出するには、基本的に2つの方法があります。
上記のブログ記事では、解決策を説明するために最新の研究論文を挙げています。それらのいくつかは、デモサイトとソースコードさえ含みます。
ありがとう、スコット