教師なしの自動タグ付けアルゴリズム？

Question

ユーザーがドキュメント、videosをアップロードできるWebアプリケーションを構築したい、images、music、それらを検索する機能を提供します。 Dropbox+セマンティック検索と考えてください。

ユーザーが新しいファイルをアップロードしたとき。 Document1.docx、ファイルのコンテンツに基づいてタグを自動的に生成するにはどうすればよいですか？つまり、ファイルの内容を判別するためにユーザー入力は必要ありません。 Document1.docxがデータマイニングに関する研究論文であるとすると、ユーザーがdata mining、またはresearch paper、またはdocument1、そのファイルは検索結果に返されます。 データマイニングおよび研究論文が自動生成される可能性のあるタグである可能性が最も高いその与えられたドキュメントのために。

1。この問題にどのアルゴリズムをお勧めしますか？

2。これを実行できる自然言語ライブラリはありますか？

。タグ付けの精度を向上させるには、どの機械学習手法を検討する必要がありますか？

4。これをビデオと画像の自動タグ付けに拡張するにはどうすればよいですか？

前もって感謝します！

Andrew Mao · Accepted Answer

このタイプのタスクの最も一般的な教師なし機械学習モデルは潜在ディリクレ割り当て（LDA）です。このモデルは、ドキュメントの単語に基づいて、ドキュメントのコーパスからトピックのコレクションを自動的に推測します。ドキュメントのセットに対してLDAを実行すると、特定のトピックを検索するときに確率で単語が割り当てられ、その単語に関連する可能性が最も高いドキュメントを取得できます。

画像や音楽にもいくつかの拡張機能があります。 http://cseweb.ucsd.edu/~dhu/docs/research_exam09.pdf を参照してください。

LDAには、いくつかの言語でいくつかの効率的な実装があります。

元の研究者による多くの実装
http://mallet.cs.umass.edu/ 、Javaで記述され、SOの他のユーザーから推奨
[〜＃〜] plda [〜＃〜] ：高速で並列化されたC++実装

U Avalos · Answer

これらの連中はLDAの代替案を提案している。

ソーシャルレコメンダーシステムの自動タグ推奨アルゴリズム http://research.Microsoft.com/pubs/79896/tagging.pdf

論文全体を読んだことはありませんが、2つのアルゴリズムがあります。

教師あり学習バージョン。これはそれほど悪いことではありません。ウィキペディアを使用してアルゴリズムをトレーニングできます
「プロトタイプ」バージョン。これを通過する機会がありませんでしたが、これは彼らがお勧めするものです

更新：私はこれをさらに調査し、別のアプローチを見つけました。基本的に、これは2段階のアプローチであり、理解と実装は非常に簡単です。 10万件のドキュメントには遅すぎますが、（おそらく）1000件のドキュメントに対して優れたパフォーマンスを発揮します（したがって、1人のユーザーのドキュメントにタグを付けるのに最適です）。このアプローチを試し、パフォーマンス/使いやすさについて報告します。

それまでの間、これがアプローチです：

http://qr.ae/36RAP に従ってTextRankを使用して、単一のドキュメントのタグリストを生成します。これにより、他のドキュメントから独立した単一のドキュメントのタグリストが生成されます。
「機械学習を使用した継続的なオントロジー開発のサポート」（ https://www.researchgate.net/publication/221630712_Using_Machine_Learning_to_Support_Continuous_Ontology_Development ）のアルゴリズムを使用して、タグリスト（ステップ1から）を既存のタグに統合しますリスト。

user3675152 · Answer

このキーフレーズ抽出アルゴリズム/パッケージを使用して、テキストドキュメントにタグを付けることができます。 http://www.nzdl.org/Kea/ 現在、限られた種類のドキュメント（おそらく農業および医療）をサポートしていますが、要件に応じてトレーニングできます。

非常に正確なオブジェクト検出（それ自体に欠点がある）を行わない限り、画像/ビデオ部分がどのように機能するかはわかりません。どのように計画していますか？

Rod Miller · Answer

Doc-Tag（ https://www.Doc-Tags.com ）が必要です。これは、自動的に監視されない-コンテキスト的に正確なドキュメントタグを生成する商用製品です。組み込みのレポート機能により、この製品は軽量のドキュメント管理システムになります。

独自のアプローチをカスタマイズしたい開発者向け-ソースコードが利用でき（非常に安価）、バックエンドサービスxAIgent（ https://xAIgent.com ）は非常に安価に使用できます。

Scott Ge · Answer

本日は、質問に答えるためにブログ記事を投稿しました。

http://scottge.net/2015/06/30/automatic-image-and-video-tagging/

画像と動画からキーワードを自動的に抽出するには、基本的に2つの方法があります。

複数インスタンス学習（MIL）
ディープニューラルネットワーク（DNN）、リカレントニューラルネットワーク（RNN）、およびバリアント

上記のブログ記事では、解決策を説明するために最新の研究論文を挙げています。それらのいくつかは、デモサイトとソースコードさえ含みます。

ありがとう、スコット