Photos.tumblr.comなどのURLを入力するコマンドが必要です。このコマンドは、サイトのホームページの画像だけでなく、このサイトのすべての写真をフォルダーにダウンロードします。このコマンドは、photos.tumblr.com/ph1/1.png/photos.tumblr.com/ph3/4.jpgなど、サイトのすべての部分から画像をダウンロードする必要があります。
このURLを使用した例を見せてください: http://neverending-fairytale.tumblr.com/ そして質問に答える前にそれをテストしてください
以下を使用できます。
wget -r -A=.jpg,.png http://website.com
このコマンドを使用すると、すべてのJPGファイルとPNGファイルを取得できますが、サイトから禁止される可能性があります。
したがって、使用する場合:
wget --random-wait --limit-rate=100k -r -A=.jpg,.png http://website.com
ダウンロードと制限速度の設定の間にランダムな時間待機する画像が表示されます。
ウェブサイト全体をダウンロード (wget -r -p -l inf -np
)、次に(または同時に)シェルスクリプトを実行して、イメージ以外のすべてのファイルを削除します(file
コマンドを使用して、ファイルがイメージかどうかを確認できます)。
(-A/-R
wgetのオプションは信頼できません。 URLの拡張子のみをチェックします(.jpg、.jpeg、.pngなどでフィルタリングできます)が、これらが存在する必要はありません。)
ほとんどのワンライナーコマンドが提供するブルートフォースアプローチを使用しても、良い結果を得るのはほとんどできません(ただし、wgetオプションを使用してサイト全体を大量に取得します)。
何らかの形式の条件付き選択とループを使用して、実際に一致し、必要な画像に移動する種類のリンクをたどるスクリプトを作成することをお勧めします。
私が通常従う戦略:
grep -o
)リンクを解析します。これは確かにそれをすべて取るワンライナーよりもはるかに複雑ですが、経験は啓発的です。ウェブスクレイピングはそれ自体が芸術です。
そのためにも、Pythonをお勧めしますが、必要に応じてシェルスクリプト(bash)、または任意のスクリプト言語(Ruby、PHP、Perlなど)を使用して実行することは完全に可能です。
お役に立てれば。