更新された回答:NLTKは2.7でうまく機能します。 3.2がありました。 3.2をアンインストールし、2.7をインストールしました。今では動作します!!
NLTKをインストールし、NLTKデータをダウンロードしようとしました。私がやったことは、このサイトのインストルメントをフォローすることでした: http://www.nltk.org/data.html
NLTKをダウンロードしてインストールし、次のコードを実行しようとしました。
>>> import nltk
>>> nltk.download()
次のようなエラーメッセージが表示されました。
Traceback (most recent call last):
File "<pyshell#6>", line 1, in <module>
nltk.download()
AttributeError: 'module' object has no attribute 'download'
Directory of C:\Python32\Lib\site-packages
nltk.download()
とnltk.downloader()
の両方を試しましたが、どちらもエラーメッセージを表示しました。
次に、help(nltk)
を使用してパッケージを取り出し、次の情報を表示します。
NAME
nltk
PACKAGE CONTENTS
align
app (package)
book
ccg (package)
chat (package)
chunk (package)
classify (package)
cluster (package)
collocations
corpus (package)
data
decorators
downloader
draw (package)
examples (package)
featstruct
grammar
help
inference (package)
internals
lazyimport
metrics (package)
misc (package)
model (package)
parse (package)
probability
sem (package)
sourcedstring
stem (package)
tag (package)
test (package)
text
tokenize (package)
toolbox
tree
treetransforms
util
yamltags
FILE
c:\python32\lib\site-packages\nltk
そこにダウンローダーが表示されますが、なぜ機能しないのかわかりません。 Python 3.2.2、システムWindows Vista。
特定のデータセット/モデルをダウンロードするには、nltk.download()
関数を使用します。 punkt
文のトークナイザーをダウンロードする場合は、次を使用します。
$ python3
>>> import nltk
>>> nltk.download('punkt')
必要なデータ/モデルがわからない場合は、データとモデルの基本的なリストから始めることができます:
>>> import nltk
>>> nltk.download('popular')
「人気のある」リソースのリストがダウンロードされます。これには次のものが含まれます。
<collection id="popular" name="Popular packages">
<item ref="cmudict" />
<item ref="gazetteers" />
<item ref="genesis" />
<item ref="gutenberg" />
<item ref="inaugural" />
<item ref="movie_reviews" />
<item ref="names" />
<item ref="shakespeare" />
<item ref="stopwords" />
<item ref="treebank" />
<item ref="Twitter_samples" />
<item ref="omw" />
<item ref="wordnet" />
<item ref="wordnet_ic" />
<item ref="words" />
<item ref="maxent_ne_chunker" />
<item ref="punkt" />
<item ref="Snowball_data" />
<item ref="averaged_perceptron_tagger" />
</collection>
誰かがnltk
から https://stackoverflow.com/a/38135306/610569 から大きなデータセットをダウンロードすることでエラーを回避している場合
$ rm /Users/<your_username>/nltk_data/corpora/panlex_lite.Zip
$ rm -r /Users/<your_username>/nltk_data/corpora/panlex_lite
$ python
>>> import nltk
>>> dler = nltk.downloader.Downloader()
>>> dler._update_index()
>>> dler._status_cache['panlex_lite'] = 'installed' # Trick the index to treat panlex_lite as it's already installed.
>>> dler.download('popular')
v3.2.5から、NLTKにはより有益なエラーメッセージがありますnltk_data
リソースが見つからない場合、例:
>>> from nltk import Word_tokenize
>>> Word_tokenize('x')
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "/Users/l/alvas/git/nltk/nltk/tokenize/__init__.py", line 128, in Word_tokenize
sentences = [text] if preserve_line else sent_tokenize(text, language)
File "/Users//alvas/git/nltk/nltk/tokenize/__init__.py", line 94, in sent_tokenize
tokenizer = load('tokenizers/punkt/{0}.pickle'.format(language))
File "/Users/alvas/git/nltk/nltk/data.py", line 820, in load
opened_resource = _open(resource_url)
File "/Users/alvas/git/nltk/nltk/data.py", line 938, in _open
return find(path_, path + ['']).open()
File "/Users/alvas/git/nltk/nltk/data.py", line 659, in find
raise LookupError(resource_not_found)
LookupError:
**********************************************************************
Resource punkt not found.
Please use the NLTK Downloader to obtain the resource:
>>> import nltk
>>> nltk.download('punkt')
Searched in:
- '/Users/alvas/nltk_data'
- '/usr/share/nltk_data'
- '/usr/local/share/nltk_data'
- '/usr/lib/nltk_data'
- '/usr/local/lib/nltk_data'
- ''
**********************************************************************
nltk_data
ディレクトリを検索する(自動魔法)、 https://stackoverflow.com/a/36383314/610569を参照)
nltk_data
を別のパスにダウンロードするには、 https://stackoverflow.com/a/48634212/610569 を参照してください=
config nltk_data
path(つまり、NLTKに別のパスを設定してnltk_data
を見つける)については、 https: //stackoverflow.com/a/22987374/610569
ファイルにnltk.pyという名前を付けないでください。同じコードを使用し、nltkという名前を付けました。同じエラーが発生しました。ファイル名を変更するとうまくいきました。
試して
nltk.download('all')
これにより、すべてのデータがダウンロードされ、個別にダウンロードする必要はありません。
Pipのインストール:ターミナルで実行:Sudo easy_install pip
Numpyのインストール(オプション):実行:Sudo pip install -U numpy
NLTKのインストール:実行:Sudo pip install -U nltk
テストインストール:実行:python
次に入力:import nltk
コーパスをダウンロードするには
実行:python -m nltk.downloader all
インタープリターは実際のファイルからではなく、そこから読み取っているので、pythonという名前の保存済みのnltk.py
ファイルを作成することはできません。
pythonシェルが読み込んでいるファイルの名前を変更し、元々やっていたことを試してください:
import nltk
、次にnltk.download()
これは私のために働いた:
nltk.set_proxy('http://user:[email protected]:8080')
nltk.download()
本当に古いバージョンのnltkを実行している場合、実際に利用可能なダウンロードモジュールはありません( reference )
これを試して:
import nltk
print(nltk.__version__)
参考文献によると、0.9.5以降は問題ありません
してみてください
import nltk
nltk.download()
これを実行すると、このようなものが得られます
NLTK Downloader
---------------------------------------------------------------------------
d) Download l) List u) Update c) Config h) Help q) Quit
---------------------------------------------------------------------------
次に、Press d
次のように実行:
Downloader> d all
完了時に次のメッセージが表示され、プロンプトを表示してからPress q
コレクションのダウンロードをすべて完了します
同様の問題がありました。プロキシを使用しているかどうかを確認してください。
はいの場合、ダウンロードを行う前にプロキシを設定します。
nltk.set_proxy('http://proxy.example.com:3128', ('USERNAME', 'PASSWORD'))
とても簡単です。
import nltk
nltk.download()
pythonのインストール中にPATHにpythonを追加する必要があります。インストール後... open cmdプロンプトタイプコマンド-pip install nltk
を選択し、IDLEに移動して新しいファイルを開きます。ファイルとして保存します。 .py..thenを開いてfile.pyを入力します:import nltk
nltk.download()
すでにファイル名nltk.pyを保存していて、再びmy_nltk_script.pyに名前を変更した場合。ファイルnltk.pyがまだ存在しているかどうかを確認してください。はいの場合、それらを削除し、ファイルmy_nltk.scripts.pyを実行します。
http://www.nltk.org/nltk_data/ からZipファイルをダウンロードしてから、解凍して、C:\ ProgramData\Anaconda3 \などのPythonフォルダーに保存してください。 nltk_data