web-dev-qa-db-ja.com

scikit-learn CountVectorizerストップリストへの単語の追加

Scikit-learnの CountVectorizer クラスを使用すると、文字列「english」を引数stop_wordsに渡すことができます。この事前定義されたリストにいくつか追加したいと思います。誰でもこれを行う方法を教えてもらえますか?

27
panterasBox

sklearn.feature_extraction.textソースコード によると、stop_wordsの完全なリスト(実際には ENGLISH_STOP_WORDSfrozenset)が__all__を通じて公開されます。したがって、そのリストとさらにいくつかの項目を使用したい場合は、次のようにすることができます。

from sklearn.feature_extraction import text 

stop_words = text.ENGLISH_STOP_WORDS.union(my_additional_stop_words)

(ここでmy_additional_stop_wordsは文字列のシーケンスです)、その結果をstop_words引数として使用します。 CountVectorizer.__init__へのこの入力は、_check_stop_listによって解析され、新しいfrozensetがそのまま渡されます。

50
jonrsharpe