web-dev-qa-db-ja.com

Wgetを使用してすべてのフォルダ、サブフォルダ、およびファイルをダウンロードする

私はWgetを使用してきました、そして私は問題に出くわしました。私は、そのサイト内にいくつかのフォルダとサブフォルダがあるサイトを持っています。各フォルダとサブフォルダ内のすべてのコンテンツをダウンロードする必要があります。私はWgetを使用していくつかの方法を試してみました、そして私が完了をチェックするとき、私がフォルダーで見ることができるのは「インデックス」ファイルだけです。私はインデックスファイルをクリックすることができます、そしてそれはファイルに私を連れて行くでしょう、しかし私は実際のファイルが必要です。

誰かが私が見過ごしてきたWgetのためのコマンドを持っていますか、または私がこの情報の全てを得るために使用できる別のプログラムがありますか?

サイトの例:

www.mysite.com/Pictures/ Pictures DIr内には、いくつかのフォルダがあります.....

www.mysite.com/Pictures/Accounting/

www.mysite.com/Pictures/Managers/北米/カリフォルニア/ JoeUser.jpg

私はすべてのファイル、フォルダなどが必要です.....

17
Horrid Henry

私はあなたがこれを試していないと仮定したいです。

wget -r --no-parent http://www.mysite.com/Pictures/

または「index.html」ファイルをダウンロードせずにコンテンツを取得する

wget -r --no-parent --reject "index.html *" http://www.mysite.com/Pictures/

参照: 任意のファイルを含むディレクトリを再帰的に取得するためのwgetの使用

31
Felix Imafidon

私はwget -rkpN -e robots=off http://www.example.com/を使います

-rは再帰的に意味します

-kはリンクを変換することを意味します。そのため、Webページ上のリンクはexample.com/blaではなくlocalhostになります。

-pは、すべてのWebページリソースを取得することを意味します。そのため、Webサイトを正しく機能させるために画像とJavaScriptファイルを取得します。

-Nはタイムスタンプを取得するので、ローカルファイルがリモートWebサイト上のファイルより新しい場合はスキップします。

-eは、robots=offが機能するためにそこに存在する必要があるフラグオプションです。

robots=offはロボットファイルを無視することを意味します。

私はまた、このコマンドに-cがあったので、それらが接続を切断した場合、コマンドを再実行したときに中断したところから続行します。私は-N-cとうまくいくだろうと考えました

14
Tim Jonas

wget -m -A * -pk -e robots = off www.mysite.com/これにより、すべての種類のファイルがローカルにダウンロードされ、htmlファイルからそれらが参照されます。
そしてロボットファイルを無視します