NLTKストップワードのサポートされているLANG(およびその鍵)の全リストを見つけることができる場所は疑問に思います。
リストがあります https://pypi.org/project/stop-words/ でありますが、各国のキーは含まれていません。そのため、単にリストを取得できる場合は明確ではありません。stopwords.words("Bulgarian")
。実際、それはエラーをスローします。
私はNLTKサイトをチェックし、「ストップワード」と一致する4つの文書がありますが、それらのどれも説明していません。 https://www.nltk.org/search.html?q = stopwords&check_keywords = yes&area=default
そして、彼らの本では何も言われていません。 http://www.nltk.org/book/ch02.html#stopwords_index_term
それで、あなたはキーのリストをどこで見つけることができますか?
最初にnltk
パッケージをダウンロードしたかどうかを確認してください。
[。]であれば、下記でダウンロードできます。
_import nltk
nltk.download()
_
その後、下のパスにストップワード言語ファイルを見つけることができます。
_C:/Users/username/AppData/Roming/nltk_data/corpora/stopwords
_
それによってサポートされている21の言語があります(私はnltk
数日後にインストールされているので、この数は最新のものでなければなりません)。ファイル名をパラメータのINに渡すことができます
nltk.corpus.stopwords.words('langauage')
os.listdir('/root/nltk_data/corpora/stopwords/')
['hungarian',
'swedish',
'kazakh',
'norwegian',
'finnish',
'arabic',
'indonesian',
'portuguese',
'turkish',
'azerbaijani',
'slovene',
'spanish',
'danish',
'nepali',
'romanian',
'greek',
'dutch',
'README',
'tajik',
'german',
'english',
'russian',
'french',
'italian']
_
以下のストップワードをインポートすると
from nltk.corpus import stopwords
english_stopwords = stopwords.words(language)
_
fileID(言語)に基づいてストップワードを取得しています。利用可能なすべてのストップワード言語を見るために、次のようにしてファイルIDのリストを取得できます。
from nltk.corpus import stopwords
print(stopwords.fileids())
_
nLTK v3.4.5の場合、これは23の言語を返します。
['arabic',
'azerbaijani',
'danish',
'dutch',
'english',
'finnish',
'french',
'german',
'greek',
'hungarian',
'indonesian',
'italian',
'kazakh',
'nepali',
'norwegian',
'portuguese',
'romanian',
'russian',
'slovene',
'spanish',
'swedish',
'tajik',
'turkish']
_