私はウェブサイトを持っていて、そのウェブサイト内のすべてのページ/リンクをダウンロードしたいと思っています。やりたいwget -r
このURL。どのリンクもこの特定のディレクトリの「外部」に移動しないので、インターネット全体をダウンロードすることについて心配していません。
結局のところ、必要なページはWebサイトのパスワードで保護されたセクションの後ろにあります。 wgetを使用して手動でCookieネゴシエーションを行うこともできますが、ブラウザーから「ログイン」し、Firefoxプラグインを使用してすべてを再帰的にダウンロードする方がはるかに簡単です。
これを可能にする拡張機能や何かはありますか?多くの拡張機能は、ページからメディア/画像を取得することに焦点を当てていますが(heh。heh。)、HTMLとすべてのすべてのコンテンツに興味があります。
提案?
ありがとう!
編集
DownThemAllはクールな提案のようです。 再帰的ダウンロードはできますか?同様に、ページ上のすべてのリンクをダウンロードしてから、各ページに含まれるすべてのリンクをダウンロードしますか?リンクをたどって基本的にディレクトリツリー全体をミラーリングするには、ちょっと-r
オプションwget
?
DownThemAllは再帰的なダウンロードを行いません。現在のページからのリンクのみを取得します。リンクされたURLのHTMLページのみがダウンロードされます。リンクされたページの画像とメディアはダウンロードされません。
SpiderZilla はそうするためのものです-しかし、少し古い(2006)。
HTTrack Webサイトコピー機 に基づいています。
すべてのプラットフォームで 更新バージョン が含まれます。
別の古いアドオン もあり、 'wget
'自体をプラグインできます(特に)。
しかし、私もDownThemAllがおそらく良い選択だと感じています。
ミラーリングする対象がわかっている場合、正しいリンクを選択しても問題はありません。
また、いつでも[すべて]チェックボックスをオンにすることができます。
したがって、ブラウザにこだわりたい場合は、DownThemAllの+1。
また、スタンドアロンツールが必要な場合は HTTrack を使用します(そして wget 便利ではありません)。
更新:この賞金の質問でHTTrackの投票を確認することもできます。
ウェブサイト全体をダウンロードするにはどうすればよいですか 。
承認後に抽出されたwget -r
をブラウザからのCookieで使用できます。
Firefoxには、Web開発者ツールの[ネットワーク]タブのページリクエストのコンテキストメニューにある[cURLとしてコピー]オプション、ホットキーCtrl + Shift + Q(ツールを開いた後にページをリロードする必要がある場合があります)があります。
Curlのヘッダーフラグ-H
をwgetの--header
に置き換えます。これで、ブラウザーセッションをwgetで続行するために必要なすべてのヘッダー(Cookieを含む)が揃いました。