実際に、asp.net Webサイトの静的/アーカイブコピーを顧客向けに何度も作成しています。これまで WebZip を使用しましたが、クラッシュ、ダウンロードされたページが正しく再リンクされないなどの無限の問題がありました。
基本的に、asp.net Webサイト上のすべての静的コピー(ページ、画像、ドキュメント、CSSなど)をクロールおよびダウンロードし、ダウンロードしたページを処理して、インターネットに接続せずにローカルで閲覧できるアプリケーションが必要です(削除)リンク内の絶対URLなど)。ばか証明が多ければ多いほど良い。これはかなり一般的で(比較的)単純なプロセスのように思えますが、他のアプリケーションをいくつか試してみましたが、本当に感銘を受けませんでした
誰かが推奨するアーカイブソフトウェアを持っていますか?誰もが共有する本当に簡単なプロセスを持っていますか?
Windowsでは、 HTTrack を見ることができます。ダウンロードの速度を設定できるように非常に構成可能です。しかし、あなたはただそれをウェブサイトに向けて、設定なしでそれを実行することもできます。
私の経験では、それは本当に良いツールであり、うまく機能しています。 HTTrackで気に入っている点は次のとおりです。
wget を使用できます。
wget -m -k -K -E http://url/of/web/site
Wayback Machine Downloader by hartator はシンプルで高速です。
Rubyを介してインストールし、目的のドメインと Internet Archive のオプションのタイムスタンプを使用して実行します。
Sudo gem install wayback_machine_downloader
mkdir example
cd example
wayback_machine_downloader http://example.com --timestamp 19700101000000
wget -r -k
...そして残りのオプションを調査します。これらのガイドラインに従っていることを願っています: http://www.w3.org/Protocols/rfc2616/rfc2616-sec9.html すべてのリソースGETリクエストで安全です。
OS Xユーザーの場合、sitesuckerアプリケーションが見つかりました here リンクをたどる深さ以外は何も設定しなくてもうまく機能します。
顧客がコンプライアンスの問題のためにアーカイブしている場合、コンテンツを認証できるようにする必要があります。リストされたオプションは単純な表示には適していますが、法的に認められていません。その場合、タイムスタンプとデジタル署名を探しています。あなたがそれを自分でやっているなら、はるかに複雑です。 PageFreezer などのサービスをお勧めします。
私はただ使用します:wget -m <url>
。
HTTrackを数年間使用しています。すべてのページ間リンクなどをうまく処理します。私の唯一の不満は、サブサイトに限定してそれを維持する良い方法を見つけられなかったことです。たとえば、アーカイブしたいサイトwww.foo.com/steveがある場合、www.foo.com/roweへのリンクをたどって、それもアーカイブします。それ以外の場合は素晴らしいです。高度な設定と信頼性。