私はしばらくgensimのWord2vecライブラリを使用してWord2vecを試してきました。私の質問は、入力テキストからストップワードを削除する必要があるかどうかです。私の最初の実験結果に基づいて、私はmodel.most_similar('someword')
..?
しかし、Word2vecでWordの停止の削除が必要であるという言及はどこにもありませんでしたか? Word2vecは、ストップワードを削除しなくても、ストップワードを処理することになっていますか?
前処理を行うために必要なことは何ですか(トピックモデリングの場合と同様に、ストップワードの削除を行う必要があります)。
個人的には、ストップワードを削除するとより良い結果が得られると思います。確認してください link
また、トピックモデリングでは、テキストの前処理を行う必要があります。
Gensimの実装は、Word2vecのオリジナルのTomas Mikolovモデルに基づいており、頻度に基づいてすべての頻繁な単語を自動的にダウンサンプリングします。
論文 で述べたように:
トレーニング中に頻度の高い単語をサブサンプリングすると、大幅なスピードアップ(約2x-10x)が得られ、頻度の低い単語の表現の精度が向上することを示しています。
つまり、これらの単語は、予測される単語のウィンドウでは考慮されない場合があります。デフォルトで0.001に設定されているサンプルパラメータは、これらの単語を削除するためのパラメータとして使用されます。頻度に基づいて削除されない特定のストップワードを削除したい場合は、それを行うことができます。
要約:ストップワードの削除を実行しても、結果に大きな違いはありません。