Scikit-learnの CountVectorizer クラスを使用すると、文字列「english」を引数stop_wordsに渡すことができます。この事前定義されたリストにいくつか追加したいと思います。誰でもこれを行う方法を教えてもらえますか?
sklearn.feature_extraction.text
の ソースコード によると、stop_words
の完全なリスト(実際には ENGLISH_STOP_WORDS
のfrozenset
)が__all__
を通じて公開されます。したがって、そのリストとさらにいくつかの項目を使用したい場合は、次のようにすることができます。
from sklearn.feature_extraction import text
stop_words = text.ENGLISH_STOP_WORDS.union(my_additional_stop_words)
(ここでmy_additional_stop_words
は文字列のシーケンスです)、その結果をstop_words
引数として使用します。 CountVectorizer.__init__
へのこの入力は、_check_stop_list
によって解析され、新しいfrozenset
がそのまま渡されます。