web-dev-qa-db-ja.com

ルートドメイン名のみを使用してWebサイトのPDFをダウンロードするにはどうすればよいですか?

私はこのコマンドを使用しています:

wget -nd -e robots=off --wait 0.25 -r -A.pdf http://yourWebsite.net/

webサイトからPDFを取得できません。

たとえば、ルートドメイン名があります。

www.example.com

このサイトにはPDF、DOC、HTMLなどがあります。ダウンロードページの正確なアドレスではなく、ルートドメイン名のみを挿入して、すべてのPDFをダウンロードします。

6
PEDY

次のコマンドが機能するはずです。

wget -r -A "*.pdf" "http://yourWebsite.net/"

詳細については、 man wget を参照してください。

3
Radu Rădeanu

上記が機能しない場合は、これを試してください:(URLを置き換えます)

lynx -listonly -dump http://www.philipkdickfans.com/resources/journals/pkd-otaku/ | grep pdf | awk '/^[ ]*[1-9][0-9]*\./{sub("^ [^.]*.[ ]*","",$0); print;}' | xargs -L1 -I {} wget {} 

あなたはlynxをインストールする必要があるかもしれません:

Sudo apt install lynx
0