企業のWebサイト全体をスクレイプしてダウンロードするプログラムの推奨事項を探しています。
このサイトは、動作を停止したCMSによって強化されており、それを修正するのは高価であり、ウェブサイトを再開発することができます。
ですから、ウェブサイト全体をプレーンなhtml/css /画像コンテンツとして取得し、新しいサイトが登場するまで必要に応じてマイナーアップデートを行いたいと思います。
お勧めはありますか?
HTTrack を検討してください。無料で使いやすいオフラインブラウザーユーティリティです。
これにより、インターネットからローカルディレクトリにWorld Wide Webサイトをダウンロードし、すべてのディレクトリを再帰的に構築し、HTML、画像、およびその他のファイルをサーバーからコンピューターに取得できます。
wget \
--recursive \
--no-clobber \
--page-requisites \
--html-extension \
--convert-links \
--restrict-file-names=windows \
--domains website.org \
--no-parent \
www.website.com
詳細については、こちらをご覧ください こちら 。
上記のどれも、私が必要とするもの(サイト全体とすべてのアセット)を正確に得るものではありませんでした。これはうまくいきました。
まず、 this チュートリアルに従って、OSXでwgetを取得します。
次にこれを実行します
wget --recursive --html-extension --page-requisites --convert-links http://website.com
最良の方法は、@ Abhijeet Rastogiの回答で示唆されているように、wget
でそれを削ることです。あなたが慣れていないなら、Blackwidowはまともなスクレーパーです。過去に使用しました。 http://www.sbl.net/