NLTK利用可能な言語は、ストップワードの言語

Question

NLTKストップワードのサポートされているLANG（およびその鍵）の全リストを見つけることができる場所は疑問に思います。

リストがあります https://pypi.org/project/stop-words/ でありますが、各国のキーは含まれていません。そのため、単にリストを取得できる場合は明確ではありません。stopwords.words("Bulgarian")。実際、それはエラーをスローします。

私はNLTKサイトをチェックし、「ストップワード」と一致する4つの文書がありますが、それらのどれも説明していません。 https://www.nltk.org/search.html?q = stopwords＆check_keywords = yes&area=default

そして、彼らの本では何も言われていません。 http://www.nltk.org/book/ch02.html#stopwords_index_term

それで、あなたはキーのリストをどこで見つけることができますか？

Sociopath · Accepted Answer

最初にnltkパッケージをダウンロードしたかどうかを確認してください。
[。]であれば、下記でダウンロードできます。

_import nltk nltk.download() _

その後、下のパスにストップワード言語ファイルを見つけることができます。

_C:/Users/username/AppData/Roming/nltk_data/corpora/stopwords _

それによってサポートされている21の言語があります（私はnltk数日後にインストールされているので、この数は最新のものでなければなりません）。ファイル名をパラメータのINに渡すことができます

nltk.corpus.stopwords.words('langauage')

Grad student at NU · Answer

os.listdir('/root/nltk_data/corpora/stopwords/') ['hungarian', 'swedish', 'kazakh', 'norwegian', 'finnish', 'arabic', 'indonesian', 'portuguese', 'turkish', 'azerbaijani', 'slovene', 'spanish', 'danish', 'nepali', 'romanian', 'greek', 'dutch', 'README', 'tajik', 'german', 'english', 'russian', 'french', 'italian']  _

thechill · Answer

以下のストップワードをインポートすると

from nltk.corpus import stopwords english_stopwords = stopwords.words(language)  _

fileID（言語）に基づいてストップワードを取得しています。利用可能なすべてのストップワード言語を見るために、次のようにしてファイルIDのリストを取得できます。

from nltk.corpus import stopwords print(stopwords.fileids())  _

nLTK v3.4.5の場合、これは23の言語を返します。

['arabic', 'azerbaijani', 'danish', 'dutch', 'english', 'finnish', 'french', 'german', 'greek', 'hungarian', 'indonesian', 'italian', 'kazakh', 'nepali', 'norwegian', 'portuguese', 'romanian', 'russian', 'slovene', 'spanish', 'swedish', 'tajik', 'turkish']  _