データベース検索エンジンであるウェブページのソースファイルをダウンロードしたい。 curlを使用すると、メインのhtmlページしかダウンロードできません。また、ウェブページにリンクされ、メインのhtmlページに記載されているすべてのjavascriptファイル、cssファイル、およびphpファイルをダウンロードしたいと思います。これはcurl/wgetまたは他のユーティリティを使用して行うことができますか?
まず、これがサービスの利用規定であることをWebサイト運営者に確認する必要があります。その後、次のようなことができます。
wget -pk example.com
-p
は、ページを表示するための必要条件(Javascript、CSSなど)を取得します。 -k
は、ページ上のリンクをローカル表示に使用できるリンクに変換します。
man wget
から:
-p、-page-requisites
このオプションにより、Wgetは特定のHTMLページを正しく表示するために必要なすべてのファイルをダウンロードします。これには、インライン化された画像、サウンド、参照されたスタイルシートなどが含まれます。
[...]
-k、-convert-links
ダウンロードが完了したら、ドキュメント内のリンクを変換して、ローカルでの表示に適したものにします。これは、表示されるハイパーリンクだけでなく、埋め込み画像、スタイルシートへのリンク、HTML以外のコンテンツへのハイパーリンクなど、外部コンテンツにリンクするドキュメントのすべての部分に影響します。