web-dev-qa-db-ja.com

Gensim Word2vecから語彙の単語数を取得するにはどうすればよいですか?

Pythonでgensim Word2vecパッケージを使用しています。訓練されたモデルから語彙を取得する方法を知っています。しかし、語彙の各単語の単語数を取得するにはどうすればよいですか?

9
Michelle Owen

語彙内の各Wordには、インデックスとカウントを含む関連語彙オブジェクトがあります。

vocab_obj = w2v.vocab["Word"]
vocab_obj.count

Googleニュースw2vモデルの出力:2998437

したがって、各単語の数を取得するには、語彙のすべての単語と語彙オブジェクトを反復処理します。

for Word, vocab_obj in w2v.vocab.items():
  #Do something with vocab_obj.count
25
user3390629

後で簡単に取得できるようにカウントするWordの辞書を作成する場合は、次のようにします。

w2c = dict()
for item in model.wv.vocab:
    w2c[item]=model.wv.vocab[item].count

モデルで最も頻繁に使用される単語を表示するように並べ替える場合は、次のように行うこともできます。

w2cSorted=dict(sorted(w2c.items(), key=lambda x: x[1],reverse=True))
2
Ahmedov