web-dev-qa-db-ja.com

HTTP経由でWebサイトをリッピングして、画像、HTML、CSSをダウンロードする

HTTP経由でサイトをリッピングする必要があります。画像、HTML、CSS、JavaScriptをダウンロードし、ファイルシステムで整理する必要があります。

誰でもこれを行う方法を知っていますか?

22
damon
wget -erobots=off --no-parent --wait=3 --limit-rate=20K -r -p -U "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)" -A htm,html,css,js,json,gif,jpeg,jpg,bmp http://example.com

これはコンソールで実行されます。

これにより、サイトが取得され、リクエスト間で3秒待機し、ダウンロードの速度を制限してサイトが強制終了されないようにします。また、サイトがあなたを邪魔しないように、ブラウザのように見えるようにマスクします。アンチリーチ機構を使用しています。

ダウンロードするファイルタイプのリストを示す-Aパラメータに注意してください。

別のタグ-D domain1.com,domain2.comを使用して、別のサーバーまたは異なる種類のファイルをホストするものがある場合に、ダウンロードする一連のドメインを示すこともできます。ファイルを取得できない場合、すべての場合にそれを自動化する安全な方法はありません。

wgetは通常Linuxにプリインストールされていますが、他のUnixシステム用に簡単にコンパイルしたり、Windows用に簡単にダウンロードしたりできます。 GNUwin32 WGET

これは悪ではなく善のために使用してください。

良い、無料のソリューション: HTTrack

HTTrackは無料(GPL、libre/freeソフトウェア)で使いやすいオフラインブラウザーユーティリティです。

インターネットからローカルディレクトリにWorld Wide Webサイトをダウンロードして、すべてのディレクトリを再帰的に構築し、サーバーからコンピューターにHTML、画像、およびその他のファイルを取得できます。 HTTrackは、元のサイトの相対的なリンク構造を調整します。 「ミラーリング」されたWebサイトのページをブラウザーで開くだけで、オンラインで表示しているかのように、リンクからリンクにサイトを参照できます。 HTTrackは、既存のミラーリングされたサイトを更新し、中断されたダウンロードを再開することもできます。 HTTrackは完全に構成可能であり、統合されたヘルプシステムがあります。

16
VBNight

Linuxシステムでは、 'wget'がほぼこれを行います。

他の回答のいくつかが言及しているように、他のいくつかのプラットフォームにも移植されています。

7
GWLlosa

明らかに、WGetは数回言及されています。私が見つけた最高のUIは

WGetには他にもいくつかUIがあり、そのうちのいくつかは 最悪のui 質問の候補です

2
Chris S

FirefoxのScrapbook拡張機能を見てください。これは素晴らしい仕事をし、firebugと統合し、必要に応じて保存する前にDOMから要素を削除することができます。

1
GBa

ほとんどのプラットフォームで利用可能なwgetを使用する必要があります。 curlは再帰的にドキュメントを要求しません。これは、wgetの主な長所の1つです。

Linux:(通常はディストリビューションに含まれています) http://www.gnu.org/software/wget/
Windows: http://gnuwin32.sourceforge.net/packages/wget.htm
Mac: http://www.geekology.co.za/blog/2009/02/macports-compile-and-install-open-source-software-on-mac-os-x /

ウェブサイトを攻撃していないことを確認してください-リクエスト間に適切な遅延を設定し、それがサイトの利用規約の範囲内であることを確認してください。

-アダム

1
Adam Davis

実際、GWLlosaの投稿で私のコメントをフォローしたところ、私はGnuWin32がインストールされていて、Windowsにwgetのポートが含まれていることを思い出しました。

http://sourceforge.net/projects/gnuwin32/

GnuWin32 provides Win32-versions of GNU tools,
or tools with a similar open source licence.
The ports are native ports, that is they rely
only on libraries provided with any 32-bits
MS-Windows operating system, such as
MS-Windows 95 / 98 / 2000 / NT / XP
1
JMD

私はこれを数年前に使用しましたが、うまくいきました。 Windowsのみ。以前はアドウェアでしたが、もはや、明らかに:

http://www.webreaper.net/

1
Odilon Redo

wget --random-wait -r -p -e robots=off -U "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)" --limit-rate=20k -b http://www.example.com

  • _-p_:パラメータは、イメージを含むすべてのファイルを含めるようにwgetに指示します。
  • _-e robots=off_:サイトのrobots.txtルールを無視
  • -U "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)":ユーザーエージェント文字列
  • _--random-wait_:ブラックリストに登録されないようにする
  • _--limit-rate=20k_:ファイルをダウンロードする速度を制限します。
  • _-b_:ログアウト後もwgetを続行します。
1
davidcondrey

IDMサイトグラバー が最善の解決策だと思います。Teleportproもあります。

0
Marwan Aouida

無料ダウンロードマネージャー は、完全なWebサイトもダウンロードできます。

Windowsだけだと思います。

0
jeroen