Wgetで多くの画像を含むWebフォーラムのスレッドをダウンロードしようとしています。これらの画像は別のドメインでホストされているため、-Hフラグを使用してダウンロードできるようにしました。私が使用している完全なwgetの順序は次のとおりです。
wget -p -H -erobots=off https://example.com/
そして、私がそれを使用すると、メイン画像を除くほとんどすべてのダウンロード。これは私がしようとしているスレッドの1つの例です ダウンロード 。
私が間違っているのは何ですか?
これはサイト固有の問題です。ランニング
wget -H -p -r --user-agent="Mozilla/5.0" -nd --accept jpg,png https://suzuki88.mforos.com/194412/11461305-brico-con-mi-nuevo-suzuki-en-proceso-de-transformacion-muchas-fotos/
次の内容のrobot.txt。*ファイルのリストが表示されます。
User-agent: *
Disallow:
これは基本的に、Webサイトがあなたがサイトのセキュリティの脆弱性にパッチを当てようとしているロボットであると考えていることを意味します。そして、ルールは、*
(すべての)ロボットがサイトafaiuの任意の部分にアクセスすることを拒否することです。