XULに関するドキュメントが必要ですが、ほとんどの場合インターネットにアクセスできません。だから、私は次のコマンドで Mozillaチュートリアル をダウンロードしようとしました:
wget --no-parent -r -l 2 -p -k https://developer.mozilla.org/en/XUL_Tutorial
私の意図は、https://developer.mozilla.org/en/XUL_Tutorial
ページとそのサブページ(たとえば、https://developer.mozilla.org/en/XUL_Tutorial/Install_Scripts
)の両方をダウンロードすることでした。ただし、--no-parent
フラグを渡しても、https://developer.mozilla.org/index.php?title=Special:Userlogin&returntotitle=en%2FXUL+Tutorial%2FInstall+Scripts
などのページが取得され続けます。
なぜそれが起こるのか分かりません。意図した動作をどのように達成できますか?
それを機能させるには、gzip圧縮を無効にする必要がありました。一部のページでwgetが禁止されているため、ユーザーエージェントも変更しました。だからこれは私が私の.wgetrcに入れたものです:
ヘッダー= Accept-エンコーディング:なし
user_agent = Mozilla/5.0(Windows; U; Windows NT 5.1; en-US; rv:1.8.1.6)Gecko/20070725 Firefox/2.0.0.6
ここでうまく機能します。
URLの末尾にスラッシュが必要です。
同様の問題がありました:
wget -r -l1 --no-parent -nH "https://www.website.com/parent/directory/"
https
とhttp
に問題があったと思います。更新しました$HOME/.wgetrc
to:
header = Accept-Encoding: none
header = Accept-Language: en-us,en;q=0.5
header = Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
header = Connection: keep-alive
user_agent = Mozilla/5.0 (Windows NT 5.1; rv:10.0.2) Gecko/20100101 Firefox/10.0.2
referer = http://www.google.com/
robots = off
次に、変更されたhttps
をhttp
に変更しました。
wget -r -l1 --no-parent -nH "http://www.website.com/parent/directory/"
wget
プログラムは、指定されたディレクトリ階層の外部からフォルダを作成(またはファイルを取得)しなくなりました。