Gensim Word2vecから語彙の単語数を取得するにはどうすればよいですか？

Question

Pythonでgensim Word2vecパッケージを使用しています。訓練されたモデルから語彙を取得する方法を知っています。しかし、語彙の各単語の単語数を取得するにはどうすればよいですか？

user3390629 · Accepted Answer

語彙内の各Wordには、インデックスとカウントを含む関連語彙オブジェクトがあります。

vocab_obj = w2v.vocab["Word"] vocab_obj.count

Googleニュースw2vモデルの出力：2998437

したがって、各単語の数を取得するには、語彙のすべての単語と語彙オブジェクトを反復処理します。

for Word, vocab_obj in w2v.vocab.items(): #Do something with vocab_obj.count

Ahmedov · Answer

後で簡単に取得できるようにカウントするWordの辞書を作成する場合は、次のようにします。

w2c = dict() for item in model.wv.vocab: w2c[item]=model.wv.vocab[item].count

モデルで最も頻繁に使用される単語を表示するように並べ替える場合は、次のように行うこともできます。

w2cSorted=dict(sorted(w2c.items(), key=lambda x: x[1],reverse=True))