HTTP経由でサイトをリッピングする必要があります。画像、HTML、CSS、JavaScriptをダウンロードし、ファイルシステムで整理する必要があります。
誰でもこれを行う方法を知っていますか?
wget -erobots=off --no-parent --wait=3 --limit-rate=20K -r -p -U "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)" -A htm,html,css,js,json,gif,jpeg,jpg,bmp http://example.com
これはコンソールで実行されます。
これにより、サイトが取得され、リクエスト間で3秒待機し、ダウンロードの速度を制限してサイトが強制終了されないようにします。また、サイトがあなたを邪魔しないように、ブラウザのように見えるようにマスクします。アンチリーチ機構を使用しています。
ダウンロードするファイルタイプのリストを示す-A
パラメータに注意してください。
別のタグ-D domain1.com,domain2.com
を使用して、別のサーバーまたは異なる種類のファイルをホストするものがある場合に、ダウンロードする一連のドメインを示すこともできます。ファイルを取得できない場合、すべての場合にそれを自動化する安全な方法はありません。
wget
は通常Linuxにプリインストールされていますが、他のUnixシステム用に簡単にコンパイルしたり、Windows用に簡単にダウンロードしたりできます。 GNUwin32 WGET
これは悪ではなく善のために使用してください。
良い、無料のソリューション: HTTrack
HTTrackは無料(GPL、libre/freeソフトウェア)で使いやすいオフラインブラウザーユーティリティです。
インターネットからローカルディレクトリにWorld Wide Webサイトをダウンロードして、すべてのディレクトリを再帰的に構築し、サーバーからコンピューターにHTML、画像、およびその他のファイルを取得できます。 HTTrackは、元のサイトの相対的なリンク構造を調整します。 「ミラーリング」されたWebサイトのページをブラウザーで開くだけで、オンラインで表示しているかのように、リンクからリンクにサイトを参照できます。 HTTrackは、既存のミラーリングされたサイトを更新し、中断されたダウンロードを再開することもできます。 HTTrackは完全に構成可能であり、統合されたヘルプシステムがあります。
Linuxシステムでは、 'wget'がほぼこれを行います。
他の回答のいくつかが言及しているように、他のいくつかのプラットフォームにも移植されています。
FirefoxのScrapbook拡張機能を見てください。これは素晴らしい仕事をし、firebugと統合し、必要に応じて保存する前にDOMから要素を削除することができます。
ほとんどのプラットフォームで利用可能なwgetを使用する必要があります。 curlは再帰的にドキュメントを要求しません。これは、wgetの主な長所の1つです。
Linux:(通常はディストリビューションに含まれています) http://www.gnu.org/software/wget/
Windows: http://gnuwin32.sourceforge.net/packages/wget.htm
Mac: http://www.geekology.co.za/blog/2009/02/macports-compile-and-install-open-source-software-on-mac-os-x /
ウェブサイトを攻撃していないことを確認してください-リクエスト間に適切な遅延を設定し、それがサイトの利用規約の範囲内であることを確認してください。
-アダム
実際、GWLlosaの投稿で私のコメントをフォローしたところ、私はGnuWin32がインストールされていて、Windowsにwgetのポートが含まれていることを思い出しました。
http://sourceforge.net/projects/gnuwin32/
GnuWin32 provides Win32-versions of GNU tools,
or tools with a similar open source licence.
The ports are native ports, that is they rely
only on libraries provided with any 32-bits
MS-Windows operating system, such as
MS-Windows 95 / 98 / 2000 / NT / XP
私はこれを数年前に使用しましたが、うまくいきました。 Windowsのみ。以前はアドウェアでしたが、もはや、明らかに:
wget --random-wait -r -p -e robots=off -U "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)" --limit-rate=20k -b http://www.example.com
- _
-p
_:パラメータは、イメージを含むすべてのファイルを含めるようにwgetに指示します。- _
-e robots=off
_:サイトのrobots.txtルールを無視-U "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)"
:ユーザーエージェント文字列- _
--random-wait
_:ブラックリストに登録されないようにする- _
--limit-rate=20k
_:ファイルをダウンロードする速度を制限します。- _
-b
_:ログアウト後もwgetを続行します。
IDMサイトグラバー が最善の解決策だと思います。Teleportproもあります。
無料ダウンロードマネージャー は、完全なWebサイトもダウンロードできます。
Windowsだけだと思います。