ウェブサイトからすべての.pdfファイルをダウンロードするPython / Javaスクリプト

Question

プログラムでWebページ全体を移動し、すべての.pdfファイルのリンクを自動的にダウンロードできるスクリプトを記述できるかどうか疑問に思いました。自分で試してみる前に、これが可能かどうか知りたい。

よろしく

kender99 · Accepted Answer

はい、可能です。 PDFファイルをダウンロードするには、Beautiful SoupやScrapyを使用する必要さえありません。

pythonからのダウンロードは非常に簡単です。すべてのlinkpdfリンクのリストを作成してダウンロードします

リンクのリストを作成する方法への参照： http://www.pythonforbeginners.com/code/regular-expression-re-findall

複数のリンクされたページをクロールする必要がある場合は、おそらくフレームワークの1つが役立つ可能性があります。ここで独自のクローラーを作成する用意がある場合は、Pythonの入門としても役立つ優れたチュートリアルがあります。 https://www.udacity.com/course/viewer#!/c-cs101

aovbros · Answer

はい、可能です。

pythonそれは簡単です; urllibはネットからファイルをダウンロードするのに役立ちます。例えば：

import urllib urllib.url_retrive("http://example.com/helo.pdf","c://home")

次に、.pdfで終わるリンクを見つけるスクリプトを作成する必要があります。

Htmlページの例：リンクはこちら

HTMLページをダウンロードして、HTMLパーサーを使用するか、正規表現を使用する必要があります。

Will · Answer

はい、可能です。これはWebスクレイピングと呼ばれます。 Pythonには、scrapy、beautifulsoup、mechanizeなどのさまざまなパッケージがこれを支援します。

Laxman · Answer

urllibを使用してファイルをダウンロードします。例えば：

import urllib urllib.urlretrieve("http://...","file_name.pdf")

。pdfで終わるリンクを見つけるサンプルスクリプト： https://github.com/laxmanverma/Scripts/blob/master/samplePaperParser/ DownloadSamplePapers.py