Webサイトのセクション(ルートの下のフォルダーパス)をミラー化するwgetを取得できません-Webサイトのホームページからのみ機能するようです。
私は多くのオプションを試しました-ここに1つの例があります
wget -rkp -l3 -np http://somewebsite/subpath/down/here/
そのURLの下のコンテンツリンクのみをミラーリングする必要がありますが、そのパスにないすべてのページアセットもダウンロードする必要があります。
ホームページ(/
)しかし、私はそれをサブフォルダに適用できません。
使用 --mirror
(-m
)および--no-parent
(-np
)オプション、およびこの例のようないくつかのクールなオプション:
wget --mirror --page-requisites --adjust-extension --no-parent --convert-links
--directory-prefix=sousers http://stackoverflow.com/users
私は通常使用します:
wget -m -np -p $url
当初からこの目的にははるかに優れているように思えたので、ミラーを達成するためにpavukを使用します。次のようなものを使用できます。
/usr/bin/pavuk -enable_js -fnrules F '*.php?*' '%o.php' -tr_str_str '?' '_questionmark_' \
-norobots -dont_limit_inlines -dont_leave_dir \
http://www.example.com/some_directory/ >OUT 2>ERR
Archivebox.ioをチェックしてください。これは、ウェブサイトのローカルで静的な、閲覧可能なHTMLクローンを作成するオープンソースの自己ホスト型ツールです(HTML、JS、メディアファイル、PDF、スクリーンショット、静的アセットなどを保存します)。
デフォルトでは、指定したURLのみがアーカイブされますが、--depth=n
すぐにフラグを設定すると、指定されたURLからリンクを再帰的にアーカイブできます。