scikit-learn CountVectorizerストップリストへの単語の追加

Question

Scikit-learnの CountVectorizer クラスを使用すると、文字列「english」を引数stop_wordsに渡すことができます。この事前定義されたリストにいくつか追加したいと思います。誰でもこれを行う方法を教えてもらえますか？

jonrsharpe · Accepted Answer

sklearn.feature_extraction.textのソースコードによると、stop_wordsの完全なリスト（実際には ENGLISH_STOP_WORDS のfrozenset）が__all__を通じて公開されます。したがって、そのリストとさらにいくつかの項目を使用したい場合は、次のようにすることができます。

from sklearn.feature_extraction import text stop_words = text.ENGLISH_STOP_WORDS.union(my_additional_stop_words)

（ここでmy_additional_stop_wordsは文字列のシーケンスです）、その結果をstop_words引数として使用します。 CountVectorizer.__init__へのこの入力は、_check_stop_listによって解析され、新しいfrozensetがそのまま渡されます。