プログラムでWebページ全体を移動し、すべての.pdfファイルのリンクを自動的にダウンロードできるスクリプトを記述できるかどうか疑問に思いました。自分で試してみる前に、これが可能かどうか知りたい。
よろしく
はい、可能です。 PDFファイルをダウンロードするには、Beautiful SoupやScrapyを使用する必要さえありません。
pythonからのダウンロードは非常に簡単です。すべてのlinkpdfリンクのリストを作成してダウンロードします
リンクのリストを作成する方法への参照: http://www.pythonforbeginners.com/code/regular-expression-re-findall
複数のリンクされたページをクロールする必要がある場合は、おそらくフレームワークの1つが役立つ可能性があります。ここで独自のクローラーを作成する用意がある場合は、Pythonの入門としても役立つ優れたチュートリアルがあります。 https://www.udacity.com/course/viewer#!/c-cs101
はい、可能です。
pythonそれは簡単です; urllib
はネットからファイルをダウンロードするのに役立ちます。例えば:
import urllib
urllib.url_retrive("http://example.com/helo.pdf","c://home")
次に、.pdfで終わるリンクを見つけるスクリプトを作成する必要があります。
Htmlページの例: リンクはこちら
HTMLページをダウンロードして、HTMLパーサーを使用するか、正規表現を使用する必要があります。
urllib
を使用してファイルをダウンロードします。例えば:
import urllib
urllib.urlretrieve("http://...","file_name.pdf")
。pdfで終わるリンクを見つけるサンプルスクリプト: https://github.com/laxmanverma/Scripts/blob/master/samplePaperParser/ DownloadSamplePapers.py