私はWord2Vecを約11,000,000トークンのデータセットで使用しており、両方のWordの類似性を実行しようとしています(ダウンストリームタスクの同義語抽出の一部として)が、Word2Vecで使用するディメンションの数がよくわかりません。トークン/センテンスの数に基づいて検討するディメンションの範囲について、優れたヒューリスティックを持っている人はいますか?
通常の間隔は100〜300です。最低の精度を達成するには、少なくとも50Dが必要だと思います。選択する次元の数を減らすと、高次元空間のプロパティが失われ始めます。トレーニング時間がアプリケーションにとって大した問題ではない場合は、200Dの寸法を使用すると、優れた機能が得られます。 300Dで最高の精度が得られます。 300D以降、Wordの機能は劇的に向上せず、トレーニングは非常に遅くなります。
高次元空間での次元選択の理論的説明と厳密な境界はわかりませんが(アプリケーションに依存しない説明がない場合もあります)、 Penningtonet。al 、図2aを参照してください。 x軸はベクトル次元を示し、y軸は得られた精度を示します。それは上記の議論に経験的な正当化を提供するはずです。
Word2vecの次元数はアプリケーションによって異なると思います。最も経験的な値は約100です。そうすれば、うまく機能します。
寸法数は、オーバー/アンダーフィッティングを反映しています。 100〜300の寸法が一般的な知識です。 1つの数値から始めて、テストセットとトレーニングセットの精度を確認します。寸法サイズが大きいほど、トレーニングセットに過剰適合しやすくなり、テストでのパフォーマンスが低下します。トレーニングセットの精度が高く、テストセットの精度が低い場合は、このパラメーターを調整する必要があります。これは、ディメンションサイズが大きすぎることを意味し、縮小するとモデルの過剰適合の問題が解決する可能性があります。