Webサイトの一部のみをミラーリングする方法は？

Question

Webサイトのセクション（ルートの下のフォルダーパス）をミラー化するwgetを取得できません-Webサイトのホームページからのみ機能するようです。

私は多くのオプションを試しました-ここに1つの例があります

wget -rkp -l3 -np http://somewebsite/subpath/down/here/

そのURLの下のコンテンツリンクのみをミラーリングする必要がありますが、そのパスにないすべてのページアセットもダウンロードする必要があります。

ホームページ（/）しかし、私はそれをサブフォルダに適用できません。

Attilio · Answer

使用 --mirror（-m）および--no-parent（-np）オプション、およびこの例のようないくつかのクールなオプション：

wget --mirror --page-requisites --adjust-extension --no-parent --convert-links --directory-prefix=sousers http://stackoverflow.com/users

ninjalj · Answer

私は通常使用します：

wget -m -np -p $url

TMS · Answer

当初からこの目的にははるかに優れているように思えたので、ミラーを達成するためにpavukを使用します。次のようなものを使用できます。

/usr/bin/pavuk -enable_js -fnrules F '*.php?*' '%o.php' -tr_str_str '?' '_questionmark_' \ -norobots -dont_limit_inlines -dont_leave_dir \ http://www.example.com/some_directory/ >OUT 2>ERR

Nick Sweeting · Answer

Archivebox.ioをチェックしてください。これは、ウェブサイトのローカルで静的な、閲覧可能なHTMLクローンを作成するオープンソースの自己ホスト型ツールです（HTML、JS、メディアファイル、PDF、スクリーンショット、静的アセットなどを保存します）。

デフォルトでは、指定したURLのみがアーカイブされますが、--depth=nすぐにフラグを設定すると、指定されたURLからリンクを再帰的にアーカイブできます。