かなり使いやすいヘッドレスブラウザが必要です(Pythonとプログラミング全般)にはまだかなり新しいので、ページに移動したり、Javascriptを必要とするフォームにログインしたりできます) 、特定の条件に一致する結果を検索し、チェックボックスをクリックし、クリックしてファイルをダウンロードすることにより、結果のWebページをスクレイピングします。
私はヘッドレスブラウザが私が望むものだと聞いています-要件/好みはPythonからそれを実行できることであり、できれば結果のスクリプトはpy2exeでコンパイルできることです(私は他のユーザーのためにこのプログラムを書いています)。
これまでのところ、Windmillは私が望んでいるもののように見えますが、よくわかりません。
どんなアイデアでも感謝します!
この質問に対する答えは Spynner
Python pyqt/pyside経由でwebkitをヘッドレスブラウザとして使用します。
http://www.riverbankcomputing.co.uk/software/pyqt/download
http://developer.qt.nokia.com/wiki/Category:LanguageBindings::PySide::Downloads
Webkitはセットアップが簡単なので特に気に入っています。 Ubuntuの場合:Sudo apt-get install python-qt4
スクリプトの例を次に示します。
http://webscraping.com/blog/Scraping-JavaScript-webpages-with-webkit/
私はZombie.jsのPythonドライバー、「シミュレートされた環境でクライアント側のJavaScriptコードをテストするための軽量フレームワーク」を書いている最中です。
現在、Node.jsのバグの解決に(現在、より多くのテストとより多くのコードを書く前に)停止していますが、進行中のプロジェクトに注意してください。
Phantomjsを使用してみてください。素晴らしいjavascriptサポートがあります。次に、pythonスクリプトのサブプロセスとして実行できます
http://docs.python.org/library/subprocess.html
それは周りのボスになる可能性があります。
IRobotSoftウェブスクレイパーと組み合わせてHTQLを使用できます。例についてはこちらをご覧ください: http://htql.net/