私はWgetを使用してきました、そして私は問題に出くわしました。私は、そのサイト内にいくつかのフォルダとサブフォルダがあるサイトを持っています。各フォルダとサブフォルダ内のすべてのコンテンツをダウンロードする必要があります。私はWgetを使用していくつかの方法を試してみました、そして私が完了をチェックするとき、私がフォルダーで見ることができるのは「インデックス」ファイルだけです。私はインデックスファイルをクリックすることができます、そしてそれはファイルに私を連れて行くでしょう、しかし私は実際のファイルが必要です。
誰かが私が見過ごしてきたWgetのためのコマンドを持っていますか、または私がこの情報の全てを得るために使用できる別のプログラムがありますか?
サイトの例:
www.mysite.com/Pictures/ Pictures DIr内には、いくつかのフォルダがあります.....
www.mysite.com/Pictures/Accounting/
www.mysite.com/Pictures/Managers/北米/カリフォルニア/ JoeUser.jpg
私はすべてのファイル、フォルダなどが必要です.....
私はあなたがこれを試していないと仮定したいです。
wget -r --no-parent http://www.mysite.com/Pictures/
または「index.html」ファイルをダウンロードせずにコンテンツを取得する
wget -r --no-parent --reject "index.html *" http://www.mysite.com/Pictures/
私はwget -rkpN -e robots=off http://www.example.com/
を使います
-r
は再帰的に意味します
-k
はリンクを変換することを意味します。そのため、Webページ上のリンクはexample.com/blaではなくlocalhostになります。
-p
は、すべてのWebページリソースを取得することを意味します。そのため、Webサイトを正しく機能させるために画像とJavaScriptファイルを取得します。
-N
はタイムスタンプを取得するので、ローカルファイルがリモートWebサイト上のファイルより新しい場合はスキップします。
-e
は、robots=off
が機能するためにそこに存在する必要があるフラグオプションです。
robots=off
はロボットファイルを無視することを意味します。
私はまた、このコマンドに-c
があったので、それらが接続を切断した場合、コマンドを再実行したときに中断したところから続行します。私は-N
が-c
とうまくいくだろうと考えました
wget -m -A * -pk -e robots = off www.mysite.com/これにより、すべての種類のファイルがローカルにダウンロードされ、htmlファイルからそれらが参照されます。
そしてロボットファイルを無視します