こんにちはPython MacにScrapyをインストールしていて、Webでv 最初の例 をフォローしようとしていました。
彼らはコマンドを実行しようとしました:
scrapy crawl mininova.org -o scraped_data.json -t json
これが何を意味するのかよくわかりません。がらくたが別のプログラムであることが判明したように見えます。そして、私は彼らがクロールと呼ばれるコマンドを持っているとは思いません。この例では、コードの段落があり、これはクラスMininovaSpiderおよびTorrentItemの定義です。これら2つのクラスをどこに移動すればよいかわからないので、同じファイルに移動します。このファイルの名前は何ですかpython file?
「一目でスクレイピー」のWebページとは対照的に、最初に チュートリアル を確認する方が幸運かもしれません。
チュートリアルは、Scrapyが実際には別個のプログラムであることを示唆しています。
scrapy startproject tutorial
コマンドを実行すると、tutorial
というフォルダーが作成され、いくつかのファイルが既に設定されています。
たとえば、私の場合、モジュール/パッケージitems
、pipelines
、settings
、spiders
がルートパッケージtutorial
に追加されています。
tutorial/
scrapy.cfg
tutorial/
__init__.py
items.py
pipelines.py
settings.py
spiders/
__init__.py
...
TorrentItem
クラスはitems.py
内に配置され、MininovaSpider
クラスはspiders
フォルダー内に配置されます。
プロジェクトがセットアップされると、Scrapyのコマンドラインパラメーターはかなり簡単に見えます。それらは次の形式を取ります:
scrapy crawl <website-name> -o <output-file> -t <output-type>
または、プロジェクトディレクトリを作成するオーバーヘッドなしでスクレイピーを実行したい場合は、 runspider コマンドを使用できます。
scrapy runspider my_spider.py