Webクロールを実行しているpythonスクリプトが完了するまでに数時間かかり、ローカルマシンで全体を実行することが実行不可能です。これを単純なWebサーバーに展開する便利な方法はありますか?スクリプトは基本的にWebページをテキストファイルにダウンロードしますが、これを行うにはどうすればよいでしょうか。
あなたはパフォーマンスが問題であり、ウェブスクレイピングを行っていると言ったので、最初に試すことは Scrapy
フレームワークです-これは非常に高速で使いやすいウェブスクレイピングフレームワークです。 scrapyd
ツールを使用すると、クロールを分散できます。複数のscrapyd
サービスを異なるサーバーで実行し、それぞれに負荷を分散できます。見る:
Scrapy Cloud
サービスがあります:
Scrapy Cloudは、非常に効率的なScrapy開発環境と、クロールを展開して実行するための堅牢でフル機能の実稼働環境とを橋渡しします。 Heroku for Scrapyに似ていますが、他のテクノロジーも近い将来サポートされる予定です。 Scrapinghubプラットフォーム上で実行されるため、プロジェクトは必要に応じてオンデマンドで拡張できます。
あなたがそれを行うことができる複数の場所があります。 「クラウド内のpython」をGoogleで検索すると、たとえば https://www.pythonanywhere.com/ のようになります。
さらに、いくつかのクラウドIDEもあり、基本的には小さなVMを無料で提供し、Webベースのコードを開発できるIDEおよびVMで実行します。1つの例は http://www.c9.io です。