web-dev-qa-db-ja.com

すべての必要なグラフィックとリンクされたpdf / Zipファイルを含む1つのHTMLページをダウンロードします

URLからWebサイトをダウンロードして、ローカルで表示したいのですが、より正確には次のようになります。

  • 1つの単一htmlページ(他のリンクされたhtmlページはありません)とそれを表示するために必要なすべて(css、画像など)をダウンロードします
  • また、pdfおよびZipタイプの直接リンクされたすべてのファイルをダウンロードします。
  • そして、それらへのすべてのリンクを修正して、リンクがローカルで機能するようにします。
  • 他のリンク(たとえば、htmlファイルへのリンク)はそのままにしておく必要があります。

私はすべてのLinuxベースのツールを利用できます(macportsサポートはいいです)。今のところwgetを使用してもうまくいきませんでした。

編集:wget -E -H -k -K -pは私が欲しいものに近いですが、どうすればPDFおよびZipファイルを含めることができますか? (出典: Stackoverflow

5
abenthy

試してください:

wget -r -k -l 1 --mirror yourSITE

-r--mirrorの理由:

-r:cuased wgetは再帰的に動作します。

--mirror:ミラーサイトなどのwgetの動作を指示しました。必要な場合もあります。

-k:単一のドキュメント

-l 1:レベル1、1レベルを再帰的に。

3
PersianGulf

HTTrackhomepage )は、ダウンロードするものとしないものについて、かなりきめ細かいオプションを使用して、オフラインで表示するためにサイトをミラーリングできます。中断されたダウンロードを再開することもできます。

2
peterph

試しましたか wget -rk -l 1 <sitename> または類似?リンクを相対パスに変換しながら、コンテンツを再帰的にフェッチする必要があります。最終結果は、必要以上の.htmlファイルになる可能性がありますが、通常は閲覧できるはずのindex.htmlを除いて、すべて削除できます。

1
tamarintech