単一のScrapyプロジェクトで異なるスパイダーに異なるパイプラインを使用するにはどうすればよいですか

Question

複数のクモを含むスクレイピープロジェクトがあります。どのスパイダーにどのパイプラインを使用するかを定義する方法はありますか？私が定義したすべてのパイプラインがすべてのスパイダーに適用できるわけではありません。

ありがとう

mstringer · Accepted Answer

Pablo Hoffmanのソリューションに基づいて、Pipelineオブジェクトのprocess_itemメソッドで次のデコレーターを使用して、スパイダーのpipeline属性をチェックして、実行する必要があるかどうか。例えば：

def check_spider_pipeline(process_item_method): @functools.wraps(process_item_method) def wrapper(self, item, spider): # message template for debugging msg = '%%s %s pipeline step' % (self.__class__.__name__,) # if class is in the spider's pipeline, then use the # process_item method normally. if self.__class__ in spider.pipeline: spider.log(msg % 'executing', level=log.DEBUG) return process_item_method(self, item, spider) # otherwise, just return the untouched item (skip this step in # the pipeline) else: spider.log(msg % 'skipping', level=log.DEBUG) return item return wrapper

このデコレータが正しく機能するためには、スパイダーに、アイテムの処理に使用するPipelineオブジェクトのコンテナを持つパイプライン属性が必要です。次に例を示します。

class MySpider(BaseSpider): pipeline = set([ pipelines.Save, pipelines.Validate, ]) def parse(self, response): # insert scrapy goodness here return item

そして、pipelines.pyファイルで：

class Save(object): @check_spider_pipeline def process_item(self, item, spider): # do saving here return item class Validate(object): @check_spider_pipeline def process_item(self, item, spider): # do validating here return item

すべてのPipelineオブジェクトは、設定のITEM_PIPELINESで定義する必要があります（正しい順序で-Spiderで順序を指定できるように変更すると良いでしょう）。

Mirage · Answer

メイン設定からすべてのパイプラインを削除し、これをスパイダー内で使用するだけです。

これにより、スパイダーごとにユーザーへのパイプラインが定義されます

class testSpider(InitSpider): name = 'test' custom_settings = { 'ITEM_PIPELINES': { 'app.MyPipeline': 400 } }

eLRuLL · Answer

ここに示されている他の解決策は良いですが、スパイダーごとにパイプラインを使用していないため、実際にはnotではないため、それらはチェックしているため、遅くなる可能性があると思いますアイテムが返されるたびにパイプラインが存在する場合（場合によっては数百万に達する可能性があります）。

スパイダーごとに機能を完全に無効（または有効）にする良い方法は、次のようなすべての拡張機能にcustom_settingおよびfrom_crawlerを使用することです。

pipelines.py

from scrapy.exceptions import NotConfigured class SomePipeline(object): def __init__(self): pass @classmethod def from_crawler(cls, crawler): if not crawler.settings.getbool('SOMEPIPELINE_ENABLED'): # if this isn't specified in settings, the pipeline will be completely disabled raise NotConfigured return cls() def process_item(self, item, spider): # change my item return item

settings.py

ITEM_PIPELINES = { 'myproject.pipelines.SomePipeline': 300, } SOMEPIPELINE_ENABLED = True # you could have the pipeline enabled by default

spider1.py

class Spider1(Spider): name = 'spider1' start_urls = ["http://example.com"] custom_settings = { 'SOMEPIPELINE_ENABLED': False }

確認すると、custom_settingsで指定されているものをオーバーライドするsettings.pyを指定しており、このスパイダーに対してSOMEPIPELINE_ENABLEDを無効にしています。

このスパイダーを実行するとき、次のようなものを確認してください。

[scrapy] INFO: Enabled item pipelines: []

現在、スクレイピーはパイプラインを完全に無効にしており、実行全体にわたってその存在を気にしません。これがスクレイピーextensionsおよびmiddlewaresでも機能することを確認します。

Francis Avila · Answer

少なくとも4つのアプローチが考えられます。

スパイダーとパイプラインのセットごとに異なるスクレイピープロジェクトを使用します（スパイダーが異なるプロジェクトに存在するのに十分な保証がある場合は、適切な場合があります）
スクレイピーツールのコマンドラインで、スパイダーの各呼び出しの間に_scrapy settings_を使用してパイプライン設定を変更します
スパイダーを独自のスクレイピーツールコマンドに分離し、コマンドクラスの_default_settings['ITEM_PIPELINES']_をそのコマンドに必要なパイプラインリストに定義します。この例の6行目を参照してください。
パイプラインクラス自体で、process_item()が実行しているスパイダーをチェックし、そのスパイダーで無視される場合は何もしません。スパイダーごとのリソースを使用する例を参照して開始してください。（スパイダーとアイテムパイプラインを緊密に結合するため、これはugいソリューションのように見えます。おそらく、これを使用すべきではありません。）

pad · Answer

パイプラインでスパイダーのname属性を使用できます

class CustomPipeline(object) def process_item(self, item, spider) if spider.name == 'spider1': # do something return item return item

この方法ですべてのパイプラインを定義すると、目的を達成できます。

Ryan Stefan · Answer

次のように、スパイダー内でアイテムパイプライン設定を設定するだけです。

class CustomSpider(Spider): name = 'custom_spider' custom_settings = { 'ITEM_PIPELINES': { '__main__.PagePipeline': 400, '__main__.ProductPipeline': 300, }, 'CONCURRENT_REQUESTS_PER_DOMAIN': 2 }

次に、ローダー/返品アイテムに値を追加してパイプラインを分割（または複数のパイプラインを使用）し、スパイダーのどの部分がアイテムを送信したかを識別できます。これにより、KeyError例外が発生せず、どのアイテムを利用できるかがわかります。

 ... def scrape_stuff(self, response): pageloader = PageLoader( PageItem(), response=response) pageloader.add_xpath('entire_page', '/html//text()') pageloader.add_value('item_type', 'page') yield pageloader.load_item() productloader = ProductLoader( ProductItem(), response=response) productloader.add_xpath('product_name', '//span[contains(text(), "Example")]') productloader.add_value('item_type', 'product') yield productloader.load_item() class PagePipeline: def process_item(self, item, spider): if item['item_type'] == 'product': # do product stuff if item['item_type'] == 'page': # do page stuff

Nanhe Kumar · Answer

2つのパイプラインを使用しています。1つはイメージのダウンロード用（MyImagesPipeline）、もう1つはmongodbのデータの保存用（MongoPipeline）です。

多くのスパイダー（spider1、spider2、...........）があるとします。私の例では、spider1とspider5はMyImagesPipelineを使用できません

settings.py

ITEM_PIPELINES = {'scrapycrawler.pipelines.MyImagesPipeline' : 1,'scrapycrawler.pipelines.MongoPipeline' : 2} IMAGES_STORE = '/var/www/scrapycrawler/dowload'

パイプラインの完全なコード

import scrapy import string import pymongo from scrapy.pipelines.images import ImagesPipeline class MyImagesPipeline(ImagesPipeline): def process_item(self, item, spider): if spider.name not in ['spider1', 'spider5']: return super(ImagesPipeline, self).process_item(item, spider) else: return item def file_path(self, request, response=None, info=None): image_name = string.split(request.url, '/')[-1] dir1 = image_name[0] dir2 = image_name[1] return dir1 + '/' + dir2 + '/' +image_name class MongoPipeline(object): collection_name = 'scrapy_items' collection_url='snapdeal_urls' def __init__(self, mongo_uri, mongo_db): self.mongo_uri = mongo_uri self.mongo_db = mongo_db @classmethod def from_crawler(cls, crawler): return cls( mongo_uri=crawler.settings.get('MONGO_URI'), mongo_db=crawler.settings.get('MONGO_DATABASE', 'scraping') ) def open_spider(self, spider): self.client = pymongo.MongoClient(self.mongo_uri) self.db = self.client[self.mongo_db] def close_spider(self, spider): self.client.close() def process_item(self, item, spider): #self.db[self.collection_name].insert(dict(item)) collection_name=item.get( 'collection_name', self.collection_name ) self.db[collection_name].insert(dict(item)) data = {} data['base_id'] = item['base_id'] self.db[self.collection_url].update({ 'base_id': item['base_id'] }, { '$set': { 'image_download': 1 } }, upsert=False, multi=True) return item

NashGC · Answer

シンプルだがまだ有用なソリューション。

スパイダーコード

 def parse(self, response): item = {} ... do parse stuff item['info'] = {'spider': 'Spider2'}

パイプラインコード

 def process_item(self, item, spider): if item['info']['spider'] == 'Spider1': logging.error('Spider1 pipeline works') Elif item['info']['spider'] == 'Spider2': logging.error('Spider2 pipeline works') Elif item['info']['spider'] == 'Spider3': logging.error('Spider3 pipeline works')

これが誰かの時間を節約することを願っています！

Wade · Answer

このようにパイプラインでいくつかの条件を使用できます

 # -*- coding: utf-8 -*- from scrapy_app.items import x class SaveItemPipeline(object): def process_item(self, item, spider): if isinstance(item, x,): item.save() return item