私は初心者で、ネイティブの英語ではないので、Gensim
の_Word2vec
_と_doc2vec
_を理解するのに問題があります。
両方とも、most_similar()
(トレーニング後)によって、私が要求するクエリワードと最も類似したいくつかの単語を提供すると思います。
_Word2vec
_または_doc2vec
_を使用する必要があるケースをどのように見分けることができますか?
誰かが短い単語の違いを説明できますか?
ありがとう。
Word2vecでは、Wordのベクトルを見つけるようにトレーニングしてから、単語間の類似クエリを実行します。 doc2vecでは、テキストにタグを付け、タグベクトルも取得します。たとえば、作成者が異なるドキュメントがあり、作成者をドキュメントのタグとして使用しているとします。次に、doc2vecトレーニングの後、同じベクトル計算を使用して、作成者タグに対して類似クエリを実行できます。つまり、AUTHOR_X
に最も類似している作成者は誰ですか。 2人の著者が一般的に同じ単語を使用する場合、それらのベクトルはより近くなります。 AUTHOR_X
は、コーパスの一部であり、ユーザーが決定したものではありません。したがって、それを用意したり、手動でテキストに挿入したりする必要はありません。 Gensimを使用すると、Wordのベクトルの有無にかかわらず、doc2vecをトレーニングできます(つまり、相互のタグの類似性のみに関心がある場合)。
以下は、Word2vecの基本についての 良いプレゼンテーション と、製品の推奨事項のために革新的な方法でdoc2vecを使用する方法です( 関連するブログ投稿 )。
解決しようとしている問題について教えていただければ、どちらの方法がより適切であるかを提案できます。