web-dev-qa-db-ja.com

トピックモデリングにWord2Vecを使用する

トピックモデリング(テキストから可能なトピックを抽出)の最も一般的な手法は、潜在ディリクレ配分(LDA)であることを読んだことがあります。

しかし、Word2Vecを使用して単語をベクトル空間にクラスター化するため、トピックモデリングを試すのが良いアイデアかどうかに興味があります。したがって、クラスターをトピックと見なすことはできませんか?

いくつかの研究のためにこのアプローチに従うことが理にかなっていると思いますか?最後に興味があるのは、トピックからテキストからキーワードを抽出することです。

17
user1814735

次の論文をご覧ください。

Dat Quoc Nguyen、Richard Billingsley、Lan Du、Mark Johnson。 2015. 潜在的な特徴語表現によるトピックモデルの改善 。計算言語学協会のトランザクション、vol。 3、299〜313ページ。 [ [〜#〜]コード[〜#〜] ]

ヤンリュー、ジーユアンリュー、タットセンチュア、マオソンサン。 2015. トピックの単語の埋め込み 。第29回人工知能に関するAAAI会議の議事録、2418-2424年。 [ [〜#〜]コード[〜#〜] ]

最初の論文では、Wordの埋め込みをLDAモデルと1トピック/ドキュメントのDMMモデルに統合しています。トピックの一貫性、ドキュメントのクラスタリング、ドキュメントの分類タスク、特に小さなコーパスや短いテキスト(ツイートなど)の大幅な改善を報告します。

2番目の論文も興味深いものです。 LDAを使用して各単語にトピックを割り当て、Word2Vecを使用して、単語とそのトピックの両方に基づいてWordの埋め込みを学習します。

11
NQD

2人がこれを解決しようとしました。

StichFixのChris MoodyがLDA2Vecを発表しました。CMUの一部の博士課程の学生は、「Word Embeddingsを使用したトピックモデルのガウスLDA」という論文を code here ...で書いていますが、 Javaセンセーショナルな結果を出力するためのコード。そこにWord2vecをガウス(数学で計算すると実際にはT分布)で使用するという興味深いアイデア。Wordトピック分布。ガウスLDAは処理できるはずです。トレーニングの語彙から。

LDA2Vecは、LDAモデルとWord-Vectorの両方を同時にトレーニングすることを試みます。また、LDAを非単語よりも優先して、非常に興味深い結果を得ることができます。

4
Mansweet

Word2Vecでは、3つの文を検討してください
「犬は猫を見ました」、
「犬は猫を追いかけました」、
「猫は木に登った」
ここで、入力ワード「cat」を指定すると、出力ワードが「climbed」として取得されます

コンテキストWord(cat)が指定されたすべての単語の確率に基づいています。その言葉の連続バッグモデル。コンテキストに基づいて、入力ワードに類似したワードを取得します。 Word2Vecは、巨大なデータセットでのみ機能します。

LDAは、コーパスからトピックを抽象化するために使用されます。そのコンテキストに基づいていません。ディリクレ分布を使用して、トピックの上に単語を描画し、ドキュメントの上にトピックを描画します。ここで直面する問題はランダム性です。毎回異なる出力を取得します。

選択する手法は、要件によって異なります。

0
Thomas N T