web-dev-qa-db-ja.com

再帰的なダウンロード( `wget -r`)はFirefoxと同等ですか?

私はウェブサイトを持っていて、そのウェブサイト内のすべてのページ/リンクをダウンロードしたいと思っています。やりたいwget -rこのURL。どのリンクもこの特定のディレクトリの「外部」に移動しないので、インターネット全体をダウンロードすることについて心配していません。

結局のところ、必要なページはWebサイトのパスワードで保護されたセクションの後ろにあります。 wgetを使用して手動でCookieネゴシエーションを行うこともできますが、ブラウザーから「ログイン」し、Firefoxプラグインを使用してすべてを再帰的にダウンロードする方がはるかに簡単です。

これを可能にする拡張機能や何かはありますか?多くの拡張機能は、ページからメディア/画像を取得することに焦点を当てていますが(heh。heh。)、HTMLとすべてのすべてのコンテンツに興味があります。

提案?

ありがとう!

編集

DownThemAllはクールな提案のようです。 再帰的ダウンロードはできますか?同様に、ページ上のすべてのリンクをダウンロードしてから、各ページに含まれるすべてのリンクをダウンロードしますか?リンクをたどって基本的にディレクトリツリー全体をミラーリングするには、ちょっと-rオプションwget

15
rascher

DownThemAllは再帰的なダウンロードを行いません。現在のページからのリンクのみを取得します。リンクされたURLのHTMLページのみがダウンロードされます。リンクされたページの画像とメディアはダウンロードされません。

7
Shibu

SpiderZilla はそうするためのものです-しかし、少し古い(2006)。
HTTrack Webサイトコピー機 に基づいています。
すべてのプラットフォームで 更新バージョン が含まれます。

別の古いアドオン もあり、 'wget'自体をプラグインできます(特に)。

しかし、私もDownThemAllがおそらく良い選択だと感じています。
ミラーリングする対象がわかっている場合、正しいリンクを選択しても問題はありません。
また、いつでも[すべて]チェックボックスをオンにすることができます。

したがって、ブラウザにこだわりたい場合は、DownThemAllの+1。
また、スタンドアロンツールが必要な場合は HTTrack を使用します(そして wget 便利ではありません)。

更新:この賞金の質問でHTTrackの投票を確認することもできます。
ウェブサイト全体をダウンロードするにはどうすればよいですか

6
nik

承認後に抽出されたwget -rをブラウザからのCookieで使用できます。

Firefoxには、Web開発者ツールの[ネットワーク]タブのページリクエストのコンテキストメニューにある[cURLとしてコピー]オプション、ホットキーCtrl + Shift + Q(ツールを開いた後にページをリロードする必要がある場合があります)があります。 screenshot

Curlのヘッダーフラグ-Hをwgetの--headerに置き換えます。これで、ブラウザーセッションをwgetで続行するために必要なすべてのヘッダー(Cookieを含む)が揃いました。

4
user