web-dev-qa-db-ja.com

ウェブサイトからすべての.pdfファイルをダウンロードするPython / Javaスクリプト

プログラムでWebページ全体を移動し、すべての.pdfファイルのリンクを自動的にダウンロードできるスクリプトを記述できるかどうか疑問に思いました。自分で試してみる前に、これが可能かどうか知りたい。

よろしく

11
sudobangbang

はい、可能です。 PDFファイルをダウンロードするには、Beautiful SoupやScrapyを使用する必要さえありません。

pythonからのダウンロードは非常に簡単です。すべてのlinkpdfリンクのリストを作成してダウンロードします

リンクのリストを作成する方法への参照: http://www.pythonforbeginners.com/code/regular-expression-re-findall

複数のリンクされたページをクロールする必要がある場合は、おそらくフレームワークの1つが役立つ可能性があります。ここで独自のクローラーを作成する用意がある場合は、Pythonの入門としても役立つ優れたチュートリアルがあります。 https://www.udacity.com/course/viewer#!/c-cs101

9
kender99

はい、可能です。

pythonそれは簡単です; urllibはネットからファイルをダウンロードするのに役立ちます。例えば:

import urllib
urllib.url_retrive("http://example.com/helo.pdf","c://home")

次に、.pdfで終わるリンクを見つけるスクリプトを作成する必要があります。

Htmlページの例: リンクはこちら

HTMLページをダウンロードして、HTMLパーサーを使用するか、正規表現を使用する必要があります。

8
aovbros

はい、可能です。これはWebスクレイピングと呼ばれます。 Pythonには、scrapy、beautifulsoup、mechanizeなどのさまざまなパッケージがこれを支援します。

4
Will

urllibを使用してファイルをダウンロードします。例えば:

import urllib

urllib.urlretrieve("http://...","file_name.pdf")

。pdfで終わるリンクを見つけるサンプルスクリプト: https://github.com/laxmanverma/Scripts/blob/master/samplePaperParser/ DownloadSamplePapers.py

1
Laxman