ブログ、たとえばwww.example.com
をwget
でミラーリングしようとしています。
私は次のオプションでwgetを使用します(シェル変数は正しく置換されます):
wget -m -p -H -k -E -np \
-w 1 \
--random-wait \
--restrict-file-names=windows \
-P $folder \
-Q${quota}m \
-t 3 \
--referer=$url \
-U 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.1.6) Gecko/20070802 SeaMonkey/1.1.4' \
-e robots=off \
-D $domains
-- $url
ブログには、他のドメインに存在する画像が含まれています。
-p
オプション(リンクされたページアセットのダウンロード)を指定した場合でも、-D
オプションで各ドメインを明示的に指定しない限り、これらの画像はダウンロードされません。
-D
オプションを省略すると、wgetはwww.example.com
の外部のすべてのリンクをたどり、インターネット全体をダウンロードします。
wget
がwww.example.com
の下のすべてのリンクをたどり、各ドメインを明示的に指定しなくても、同じドメインにあるかどうかに関係なく、各ページの必要なアセットをダウンロードすることは可能ですか?
いいえ、唯一の方法は、-Dまたは--domains = [ドメインリスト](コンマ区切りリストの形式)を使用して、wgetがフォローするドメインを指定することです。