web-dev-qa-db-ja.com

Webサイトから再帰的にダウンロードする

ウェブサイトのURLから画像を取得しようとしています "www.example.com/products "この製品フォルダにはたくさんのサブフォルダがあり、製品フォルダをダウンロードする必要があります。

Www.example.com/products、www.example.com/products/subfoldersでは、画像は次のとおりです。

  • www.example.com/products/subfolder1/image.jpg、
  • www.example.com/products/subfolder2/image.jpg、
  • www.example.com/products/subfolder3/image.jpg

データ付きのサブフォルダーを含むproductsフォルダーをダウンロードするにはどうすればよいですか。

3
Gireesh T
wget -nd -r -l1 -P /save/location -A jpeg,jpg http://www.example.com/products

説明:

-ndは、ディレクトリ階層の作成を防ぎます(つまり、 ディレクトリなし )。

-r再帰的取得を有効にします。詳細については、 再帰的ダウンロード を参照してください。

-l1再帰の最大深度レベルを指定します。このディレクトリの場合は1で、productsです。

-Pは、すべてのファイルとディレクトリが保存されるディレクトリプレフィックスを設定します。

-A特定のファイルタイプのみを取得するためのホワイトリストを設定します。文字列とパターンが受け入れられ、両方ともコンマ区切りのリストで使用できます(上記を参照)。詳細については、 ファイルの種類 を参照してください。

5
Rahul

httrack(1)を試してください。これは、Webサイト全体のローカルミラーを作成するのに最も役立つWebスパイダーです。

リンクされたマンページの例から始めることができます。

2
phg
wget -nH --page-requisites -R -nH -P mirrorDirectory https://example.com

ここで、mirrorDirectoryは、出力を保存する場所のパスです。

0
DANTILO HS