web-dev-qa-db-ja.com

Scrapyの非常に基本的な例

こんにちはPython MacにScrapyをインストールしていて、Webでv 最初の例 をフォローしようとしていました。

彼らはコマンドを実行しようとしました:

scrapy crawl mininova.org -o scraped_data.json -t json

これが何を意味するのかよくわかりません。がらくたが別のプログラムであることが判明したように見えます。そして、私は彼らがクロールと呼ばれるコマンドを持っているとは思いません。この例では、コードの段落があり、これはクラスMininovaSpiderおよびTorrentItemの定義です。これら2つのクラスをどこに移動すればよいかわからないので、同じファイルに移動します。このファイルの名前は何ですかpython file?

20
B.Mr.W.

「一目でスクレイピー」のWebページとは対照的に、最初に チュートリアル を確認する方が幸運かもしれません。

チュートリアルは、Scrapyが実際には別個のプログラムであることを示唆しています。

scrapy startproject tutorialコマンドを実行すると、tutorialというフォルダーが作成され、いくつかのファイルが既に設定されています。

たとえば、私の場合、モジュール/パッケージitemspipelinessettingsspidersがルートパッケージtutorialに追加されています。

tutorial/
    scrapy.cfg
    tutorial/
        __init__.py
        items.py
        pipelines.py
        settings.py
        spiders/
            __init__.py
            ...

TorrentItemクラスはitems.py内に配置され、MininovaSpiderクラスはspidersフォルダー内に配置されます。

プロジェクトがセットアップされると、Scrapyのコマンドラインパラメーターはかなり簡単に見えます。それらは次の形式を取ります:

scrapy crawl <website-name> -o <output-file> -t <output-type>

または、プロジェクトディレクトリを作成するオーバーヘッドなしでスクレイピーを実行したい場合は、 runspider コマンドを使用できます。

scrapy runspider my_spider.py
24
Michael0x2a