web-dev-qa-db-ja.com

Gensim:Word2vecとdoc2vecの違いは何ですか?

私は初心者で、ネイティブの英語ではないので、Gensimの_Word2vec_と_doc2vec_を理解するのに問題があります。

両方とも、most_similar()(トレーニング後)によって、私が要求するクエリワードと最も類似したいくつかの単語を提供すると思います。

_Word2vec_または_doc2vec_を使用する必要があるケースをどのように見分けることができますか?

誰かが短い単語の違いを説明できますか?

ありがとう。

9
user3595632

Word2vecでは、Wordのベクトルを見つけるようにトレーニングしてから、単語間の類似クエリを実行します。 doc2vecでは、テキストにタグを付け、タグベクトルも取得します。たとえば、作成者が異なるドキュメントがあり、作成者をドキュメントのタグとして使用しているとします。次に、doc2vecトレーニングの後、同じベクトル計算を使用して、作成者タグに対して類似クエリを実行できます。つまり、AUTHOR_Xに最も類似している作成者は誰ですか。 2人の著者が一般的に同じ単語を使用する場合、それらのベクトルはより近くなります。 AUTHOR_Xは、コーパスの一部であり、ユーザーが決定したものではありません。したがって、それを用意したり、手動でテキストに挿入したりする必要はありません。 Gensimを使用すると、Wordのベクトルの有無にかかわらず、doc2vecをトレーニングできます(つまり、相互のタグの類似性のみに関心がある場合)。

以下は、Word2vecの基本についての 良いプレゼンテーション と、製品の推奨事項のために革新的な方法でdoc2vecを使用する方法です( 関連するブログ投稿 )。

解決しようとしている問題について教えていただければ、どちらの方法がより適切であるかを提案できます。

13
pembeci