Scrapyで引数をprocess.crawlに渡すpython

Question

次のコマンドラインと同じ結果を取得したいと思います。

私のスクリプトは次のとおりです：

import scrapy from linkedin_anonymous_spider import LinkedInAnonymousSpider from scrapy.crawler import CrawlerProcess from scrapy.utils.project import get_project_settings spider = LinkedInAnonymousSpider(None, "James", "Bond") process = CrawlerProcess(get_project_settings()) process.crawl(spider) ## <-------------- (1) process.start()

（1）のprocess.crawl（）が、最初と最後がNoneである別のLinkedInAnonymousSpiderを作成していることを発見しました（（2）に印刷されています）、そうである場合、オブジェクトスパイダーを作成する意味がありません。最初と最後の引数をprocess.crawl（）に渡しますか？

linkedin_anonymous：

from logging import INFO import scrapy class LinkedInAnonymousSpider(scrapy.Spider): name = "linkedin_anonymous" allowed_domains = ["linkedin.com"] start_urls = [] base_url = "https://www.linkedin.com/pub/dir/?first=%s&last=%s&search=Search" def __init__(self, input = None, first= None, last=None): self.input = input # source file name self.first = first self.last = last def start_requests(self): print self.first ## <------------- (2) if self.first and self.last: # taking input from command line parameters url = self.base_url % (self.first, self.last) yield self.make_requests_from_url(url) def parse(self, response): . . .

eLRuLL · Accepted Answer

process.crawlメソッドでスパイダー引数を渡します。

process.crawl(spider, input='inputargument', first='James', last='Bond')

Manualmsdos · Answer

あなたはそれを簡単な方法で行うことができます：

from scrapy import cmdline cmdline.execute("scrapy crawl linkedin_anonymous -a first=James -a last=Bond -o output.json".split())