Pythonでgensim Word2vecパッケージを使用しています。訓練されたモデルから語彙を取得する方法を知っています。しかし、語彙の各単語の単語数を取得するにはどうすればよいですか?
語彙内の各Wordには、インデックスとカウントを含む関連語彙オブジェクトがあります。
vocab_obj = w2v.vocab["Word"]
vocab_obj.count
Googleニュースw2vモデルの出力:2998437
したがって、各単語の数を取得するには、語彙のすべての単語と語彙オブジェクトを反復処理します。
for Word, vocab_obj in w2v.vocab.items():
#Do something with vocab_obj.count
後で簡単に取得できるようにカウントするWordの辞書を作成する場合は、次のようにします。
w2c = dict()
for item in model.wv.vocab:
w2c[item]=model.wv.vocab[item].count
モデルで最も頻繁に使用される単語を表示するように並べ替える場合は、次のように行うこともできます。
w2cSorted=dict(sorted(w2c.items(), key=lambda x: x[1],reverse=True))