HTTP経由でWebサイトをリッピングして、画像、HTML、CSSをダウンロードする

Question

HTTP経由でサイトをリッピングする必要があります。画像、HTML、CSS、JavaScriptをダウンロードし、ファイルシステムで整理する必要があります。

誰でもこれを行う方法を知っていますか？

DevelopersDevelopersDevelopers · Accepted Answer

wget -erobots=off --no-parent --wait=3 --limit-rate=20K -r -p -U "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)" -A htm,html,css,js,json,gif,jpeg,jpg,bmp http://example.com

これはコンソールで実行されます。

これにより、サイトが取得され、リクエスト間で3秒待機し、ダウンロードの速度を制限してサイトが強制終了されないようにします。また、サイトがあなたを邪魔しないように、ブラウザのように見えるようにマスクします。アンチリーチ機構を使用しています。

ダウンロードするファイルタイプのリストを示す-Aパラメータに注意してください。

別のタグ-D domain1.com,domain2.comを使用して、別のサーバーまたは異なる種類のファイルをホストするものがある場合に、ダウンロードする一連のドメインを示すこともできます。ファイルを取得できない場合、すべての場合にそれを自動化する安全な方法はありません。

wgetは通常Linuxにプリインストールされていますが、他のUnixシステム用に簡単にコンパイルしたり、Windows用に簡単にダウンロードしたりできます。 GNUwin32 WGET

これは悪ではなく善のために使用してください。

VBNight · Answer

良い、無料のソリューション： HTTrack

HTTrackは無料（GPL、libre/freeソフトウェア）で使いやすいオフラインブラウザーユーティリティです。

インターネットからローカルディレクトリにWorld Wide Webサイトをダウンロードして、すべてのディレクトリを再帰的に構築し、サーバーからコンピューターにHTML、画像、およびその他のファイルを取得できます。 HTTrackは、元のサイトの相対的なリンク構造を調整します。「ミラーリング」されたWebサイトのページをブラウザーで開くだけで、オンラインで表示しているかのように、リンクからリンクにサイトを参照できます。 HTTrackは、既存のミラーリングされたサイトを更新し、中断されたダウンロードを再開することもできます。 HTTrackは完全に構成可能であり、統合されたヘルプシステムがあります。

GWLlosa · Answer

Linuxシステムでは、 'wget'がほぼこれを行います。

他の回答のいくつかが言及しているように、他のいくつかのプラットフォームにも移植されています。

Chris S · Answer

明らかに、WGetは数回言及されています。私が見つけた最高のUIは

VisualWGet

WGetには他にもいくつかUIがあり、そのうちのいくつかは最悪のui 質問の候補です

GBa · Answer

FirefoxのScrapbook拡張機能を見てください。これは素晴らしい仕事をし、firebugと統合し、必要に応じて保存する前にDOMから要素を削除することができます。

Adam Davis · Answer

ほとんどのプラットフォームで利用可能なwgetを使用する必要があります。 curlは再帰的にドキュメントを要求しません。これは、wgetの主な長所の1つです。

Linux：（通常はディストリビューションに含まれています） http://www.gnu.org/software/wget/
Windows： http://gnuwin32.sourceforge.net/packages/wget.htm
Mac： http://www.geekology.co.za/blog/2009/02/macports-compile-and-install-open-source-software-on-mac-os-x /

ウェブサイトを攻撃していないことを確認してください-リクエスト間に適切な遅延を設定し、それがサイトの利用規約の範囲内であることを確認してください。

-アダム

JMD · Answer

実際、GWLlosaの投稿で私のコメントをフォローしたところ、私はGnuWin32がインストールされていて、Windowsにwgetのポートが含まれていることを思い出しました。

http://sourceforge.net/projects/gnuwin32/

GnuWin32 provides Win32-versions of GNU tools, or tools with a similar open source licence. The ports are native ports, that is they rely only on libraries provided with any 32-bits MS-Windows operating system, such as MS-Windows 95 / 98 / 2000 / NT / XP

Odilon Redo · Answer

私はこれを数年前に使用しましたが、うまくいきました。 Windowsのみ。以前はアドウェアでしたが、もはや、明らかに：

http://www.webreaper.net/

davidcondrey · Answer

wget --random-wait -r -p -e robots=off -U "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)" --limit-rate=20k -b http://www.example.com

_-p_：パラメータは、イメージを含むすべてのファイルを含めるようにwgetに指示します。

_-e robots=off_：サイトのrobots.txtルールを無視

-U "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)"：ユーザーエージェント文字列

_--random-wait_：ブラックリストに登録されないようにする

_--limit-rate=20k_：ファイルをダウンロードする速度を制限します。

_-b_：ログアウト後もwgetを続行します。

Marwan Aouida · Answer

IDMサイトグラバーが最善の解決策だと思います。Teleportproもあります。

jeroen · Answer

無料ダウンロードマネージャーは、完全なWebサイトもダウンロードできます。

Windowsだけだと思います。