web-dev-qa-db-ja.com

バックアップなしで失われたウェブサイトを回復しますか?

残念ながら、ホスティングプロバイダーは100%のデータ損失を経験したため、2つのホストされたブログWebサイトのすべてのコンテンツを失いました。

(はい、はい、私は完全にshould完全なオフサイトバックアップを実行しました。残念なことに、すべてのバックアップはサーバー自体にありました。だから講義を保存してください。現時点で私を助けてください。ここで質問に集中しましょう!)

私は、WebクローラーのキャッシュからWebサイトを回復する、遅くて苦痛なプロセスを始めています。

Warrick など、インターネットWebスパイダー(Yahoo、Bing、Googleなど)キャッシュからWebサイトを回復するための自動化されたツールがいくつかありますが、これを使用していくつかの悪い結果がありました。

  • 私のIPアドレスは、使用するためにGoogleからすぐに禁止されました
  • 500エラーと503エラーが大量に発生し、「5分間待機しています...」
  • 最終的には、テキストコンテンツを手作業でより速く回復できます

すべてのブログ投稿のリストを使用して、Googleキャッシュにクリックスルーし、個々のファイルをHTMLとして保存することで、幸運を得ることができました。ブログには多くの投稿がありますが、thatには多くありません。より良いバックアップ戦略がないため、自己主張をするに値すると思います。とにかく、重要なことは、この方法でブログの投稿テキストを取得できて幸運だったということです。そして、私は間違いなくインターネットキャッシュからウェブページのテキストを取得することができます。これまでに行ったことに基づいて、回復できると確信していますall失われたブログ投稿テキストとコメント

ただし、各ブログ投稿に付随するimagesは証明されていますが…より困難です。

インターネットキャッシュからWebサイトページを復元するための一般的なヒント、特に、Webサイトページからアーカイブされたイメージを復元する場所?

(そして、また、バックアップ講座はありません。あなたは完全に、完全に、まったく正しいです!しかし、正しいことは私の差し迫った問題を解決していません...タイムマシンがない限り…)

262
Jeff Atwood

暗闇の中で私の野生の刺し傷です:すべての画像リクエストに対して304を返すようにWebサーバーを設定し、URLのリストをどこかに投稿し、すべての読者にポッドキャストを頼んで各URLをロードして画像を収集することにより、回復をクラウドソーシングしますローカルキャッシュからロードします。 (これはHTMLページ自体を復元し、<img ...>タグで完了した後にのみ機能します。これはあなたの質問があなたができることを暗示しているようです。)

これは基本的に、「読者のWebブラウザーのキャッシュから取得する」という凝った方法です。多くの読者とポッドキャストリスナーがいるので、最近Webサイトを閲覧した可能性が高い多数の人々を効果的に動員できます。しかし、さまざまなWebブラウザーのキャッシュから画像を手動で見つけて抽出することは難しく、多くの人がそれを試して成功するのに十分簡単である場合、アプローチ全体が最適に機能します。したがって、304アプローチ。読者に必要なのは、一連のリンクをクリックして、Webブラウザーに読み込まれる画像(または右クリックして名前を付けて保存など)をドラッグして、メールで送信するか、あなたが設定した中央の場所、または何でも。このアプローチの主な欠点は、Webブラウザーのキャッシュがそれほど遠くまで戻らないことです。しかし、非常に古いイメージでさえ救助するために、過去数日間に2006年からたまたま投稿を読み込んだ読者はたった1人です。十分な聴衆があれば、何でも可能です。

219
John Siracusa

私たちの中にはRSSリーダーであなたをフォローし、キャッシュをクリアしないものがいます。 2006年にさかのぼるようなブログ投稿があります。私が見ることのできる画像はありませんが、あなたが今していることよりも良いかもしれません。

65
retracile

(1)HTMLバックアップから不足しているすべての画像のファイル名のリストを抽出します。次のようなものが残されます。

  • stay-puft-Marshmallow-man.jpg
  • internet-properties-dialog.png
  • yahoo-homepage-small.png
  • password-show-animated.gif
  • tivo2.jpg
  • michael-abrash-graphics-program

(2)それらのファイル名に対してGoogle画像検索を実行します。それらの多くは、他のブロガーによって「ミラーリング」されており、同じファイル名を持っているので、撮影の準備ができているようです。

(3)たとえば10枚以上の画像で成功した場合は、自動でこれを行うことができます。

62
Portman

Google画像検索 に移動して site:codinghorror.com と入力すると、少なくともすべての画像のサムネイルバージョンを見つけることができます。いいえ、必ずしも役立つとは限りませんが、数千の画像を取得するための出発点となります。

Codinghorror images

Googleはsomeの場合に大きなサムネイルを保存するようです:

Google vs. Bing

Googleは左側、Bingは右側にあります。

50
George Stocker

ブログについて聞いて申し訳ありません。講義しないしかし、Imageshackであなたの画像のように見えるものを見つけました。彼らは本当にあなたのものですか、誰かがそれらのコピーを保持していますか?.

http://profile.imageshack.us/user/codinghorror

フルサイズの456個の画像のように見えます。これは、すべてを回復するための最善の策かもしれません。たぶん彼らはあなたにダンプを提供することさえできます。

40
Nick Berardi

ジェフ、私はあなたのために何かを書きました ここ

要するに、私があなたに提案するのは:

  1. すべての画像リクエストに対して304を返すようにWebサーバーを構成します。 304は、ファイルが変更されていないことを意味します。これは、ブラウザがキャッシュにファイルが存在する場合、そのキャッシュからファイルを取得することを意味します。 (クレジット: このスーパーユーザーの回答

  2. Webサイトのすべてのページに、画像データをキャプチャしてサーバーに送信する小さなスクリプトを追加します。

  3. 画像データをサーバーに保存します。

  4. 出来上がり!

指定されたリンクからスクリプトを取得できます。

37
Niyaz

Wayback Machine でこのクエリを試してください:

http://web.archive.org/web/*sa_re_im_/http://codinghorror.com/*

これにより、archive.orgによってアーカイブされたcodinghorror.comからすべての画像が取得されます。これにより3878個の画像が返されますが、その一部は重複しています。完全ではありませんが、それでもなお良いスタートです。

残りの画像については、検索エンジンのキャッシュからサムネイルを使用し、 http://www.tineye.com/ でこれらを使用して逆ルックアップを実行できます。あなたはそれにサムネイル画像を与えます、そしてそれはあなたにプレビューとウェブ上で見つかった密接に一致する画像へのポインタを与えます。

28
Peter Stuer

(1)rawディスクがどこかで利用可能な場合、ddの推奨事項に+1。 (2)画像は単純なファイルでした。次に、法医学的な「データカービング」ツールを使用して、(たとえば)JPG/PNG/GIFのように見えるすべての信頼できる範囲を引き出します。この方法でワイプしたiPhoneで写真の95%以上を回復しました。

これには、「最前線」のオープンソースツールとその後継の「メス」を使用できます。

http://foremost.sourceforge.net/

http://www.digitalforensicssolutions.com/Scalpel/

26
gojomo

幸いなことに、将来の世代は大丈夫です。

この大きな岩の一部だけでさえ、科学者/言語学者は多くを理解しました。

Rosetta Stone

数枚の写真が欠けている場合は、数千年後に誰かにわかるようにしてください。

うまくいけば、あなたは少し笑っています。 :)

26
jm

同様に、archive.orgもいつでも試すことができます。ウェイバックマシンを使用します。これを使用して、Webサイトから画像を復元しました。

21
Kyle

絶対に最悪の場合、あなたは物を取り戻すことができません。くそー。

縮小されたグーグルのものをつかみ、逆画像検索エンジン TinEye に入れてみてください。うまくいけば、人々が作った重複やリホストをつかむはずです。

14
Phoshi

それは長いショットですが、あなたが考慮することができます:

  • 不足している写真の正確なリストを投稿する
  • すべての読者のインターネットキャッシュを使用して、検索プロセスをクラウドソーシングします。

たとえば、 Nirsoft Mozilla Cache Viewer を参照してください。

alt text
(ソース: nirsoft.net

簡単なコマンドラインを使用して、まだあるかもしれない「blog.stackoverflow.com」画像をすばやく掘り下げることができます。

MozillaCacheView.exe -folder "C:\Documents and Settings\Administrator\Local Settings\Application Data\Mozilla\Firefox\Profiles\acf2c3u2.default\Cache" 
/copycache "http://blog.stackoverflow.com" "image" /CopyFilesFolder "c:\temp\blogso" /UseWebSiteDirStructure 0

注:それらは同じ Chromeのキャッシュエクスプローラー です。

alt text
(ソース: nirsoft.net

(15日間分のblog.stackoverflow.comの写真が必要です)

Internet Explorer 、または Opera


次に、公開リストを更新して、読者がキャッシュで発見したことを報告する内容を反映します。

14
VonC

過去に http://www.archive.org/ を使用して、キャッシュされたイメージをプルアップしました。それは一種のヒットまたはミスですが、それは私のために働いています。
また、古いサイトで使用したスト​​ック写真を復元しようとすると、サムネイルしかなく、フルサイズの画像が必要な場合にwww.tineye.comが最適です。

これがあなたのお役に立てば幸いです。がんばろう。

12
Elitist Czar

これはおそらく最も簡単または完全な解決策ではありませんが、Evernoteなどのサービスは通常、テキストと画像の両方をアプリケーション内に保存するときに保存します-記事を保存した役立つ読者が画像を保存して送り返すことができます?

10
Justin Burdett

archive.org で素晴らしい経験をしました。サイトからすべてのブログ投稿を抽出できない場合でも、すべての定期的なスナップショットを保持します。

alt text

このようにして、各ページをチェックアウトし、作成したブログ投稿を見ることができます。すべての投稿の名前を使用すると、archive.orgにない場合はGoogleのキャッシュで簡単に見つけることができます。アーカイブは画像を保持しようとしますが、Googleキャッシュには画像があります。最近キャッシュを空にしたことはありませんので、最近のブログ投稿のお手伝いをいたします:)

10
John T

独自のローカルブラウザキャッシュを試しましたか?かなり新しい可能性があり、最近のものがまだ残っています。 http://lifehacker.com/385883/resurrect-images-from-my-web-browser-cache

(または、不足しているすべての画像のリストを編集し、誰もがキャッシュをチェックして空白を埋めることができるかどうかを確認できます)

8
thijs

将来への提案:ブログに Windows Live Writer を使用し、ブログに公開するだけでなく、投稿をコンピューターにローカルに保存します。

8
Matt Sherman

Archive.orgと[Tor] [2]のようなリクエストアノニマイザーの組み合わせをお勧めします。アノニマイザーを使用することをお勧めします。その方法では、各リクエストにランダムなIPと場所が割り当てられ、その方法により、異常に多数のリクエストに対してarchive.org(Googleのように)によって禁止されることを回避できます。

幸運を祈ります、そのブログにはたくさんの逸品があります。

7
mirnazim

約5年前、すべてのデジタル写真を保存していた外付けハードドライブの初期の化身はひどく失敗しました。 ddを使用してハードドライブのイメージを作成し、JPEGイメージのように見えるものを復元するための基本的なツールを作成しました。それから私の写真のほとんどを手に入れました。

質問は、イメージを保持している仮想マシンのディスクイメージのコピーを取得できますか?

7
Sinan Ünür

Webアーカイブは画像をキャッシュします。今は負荷が重いので、2008年までは大丈夫です。

http://web.archive.org/web/20080618014552rn%5F2/www.codinghorror.com/blog/

7
Juan Cruz Nores

ウェイバックマシンにはいくつかあります。 Googleキャッシュと同様のキャッシュにはいくつかあります。

最も効果的な方法の1つは、元のポスターをメールで送信して、助けを求めることです。

実際には、インフラストラクチャに関する推奨事項がいくつかあります。これはすべてクリーンアップされた後です。基本的な問題は、実際にはバックアップではなく、サイトの複製の欠如と監査の欠如です。プライベートメールフィールドの内容で私にメールを送ってくれた場合、後で戻ってきたとき、私はあなたと問題について話し合いたいです。

6
John

画像がFlickrやCDNなどの外部サービスに保存されている場合(ポッドキャストの1つに記載されているように)、そこに画像リソースがある場合があります。

一部の画像は Google Images で検索し、「類似画像を検索する」をクリックすると見つかります。他のサイト。

6
splattne

archive.orgは時々画像を隠します。各URLを手動で取得(または短いスクリプトを作成)し、次のようにクエリします。

string.Format( "GET/*/{0}"、nextUri)

もちろん、それを検索するのはかなり面倒です。

ブラウザのキャッシュにあるかもしれません。もしそうしたら、どこかでホストします。

5
Andrew Wilcox

ユーザーのキャッシュをスクレイプしようとする場合は、すべての条件付きGET(「If-Modified-Since」または「If-None-Match」)リクエストに304 Not Modified応答するようにサーバーを設定できます。 、ブラウザがキャッシュされたマテリアルを再検証するために使用します。

画像などの静的コンテンツの初期キャッシュヘッダーがかなりリベラルである場合(数日または数か月キャッシュすることを許可している場合)、しばらくの間、再検証リクエストを取得し続けることができます。それらのリクエストにCookieを設定し、キャッシュに対してスクリプトを実行して、まだ持っている画像を抽出するようユーザーに訴えます。

ただし、まだ存在しないインラインリソースを含むテキストコンテンツを作成し始めると、リバリデーターが404に達したときにキャッシュバージョンを消去することに注意してください。

4
gojomo

TinEye to 画像の重複を見つける を使用することができます google cacheでサムネイルを検索する 。ただし、これは他のサイトから撮影した画像でのみ役立ちます。

4
voyager

明白なことを指摘するリスクがあるので、イメージに対して自分のコンピューターのバックアップをマイニングするを試してください。バックアップ戦略が偶然であり、外部ドライブ、焼き付けられたディスク、Zip/tarファイルに多数のファイルのコピーが複数あることを知っています。がんばろう!

4
lo_fye

ホスティングプロバイダーにバックアップがあるかどうかを確認できましたか(古いバージョンもあります)?

3
hi

このデータはどれくらい価値がありますか?相当額(数千ドル)の価値がある場合は、Webサイトのデータの保存に使用するハードドライブをホスティングプロバイダーに依頼することを検討してください(ハードウェア障害によるデータ損失の場合)。その後、ドライブをオントラックまたは他のデータ回復サービスに移動して、ドライブから何を取得できるかを確認できます。これは、ドライブ上の他の人の未回復データの可能性もあるため、交渉するのは難しいかもしれませんが、本当に気にするなら、おそらくそれを解決することができます。

2
Wedge

これを聞いて非常に残念で、私はあなたとそのタイミングに非常に腹を立てています-私はあなたの投稿のいくつかのオフラインコピーが欲しいとあなたのサイト全体でHTTrackをしましたが、外出する必要がありました(これは数週間前でした)やめました。

ホストが中途半端な場合-そして、私はあなたが良い顧客だと推測しているという事実によって...私は彼らにあなたにハードドライブを送るよう頼みます(私は彼らがRAIDを使用するべきだと推測しているように)または自分自身でいくつかの回復を行うでしょう。

これは速いプロセスではないかもしれませんが、私はクライアントのために1つのホストでこれを行い、データベース全体を完全に回復することができました(...基本的に、ホストは使用しているコントロールパネルのアップグレードを試み、それを台無しにしました。しかし、何も上書きされませんでした)。

何が起こっても-SOサイトのすべてのファンから幸運を祈ります!

2
wilhil

あなたの画像は、Sun microsystemsに返してもらい、「 インターネット全体のバックアップ ...輸送用コンテナ内

「インターネットアーカイブは、一時的なインターネットに長期的なデジタル保存を提供します」と、インターネットアーカイブ組織の創設者であるブリュースターカーレは述べています。 「世界で最も価値のある情報の多くがオンラインに移行し、データが指数関数的に増大するにつれて、インターネットアーカイブは、将来の世代がこれらの重要なドキュメントにアクセスし、長期にわたって保持し続けることを保証する生きた歴史として機能します。」

1996年にBrewster Kahleによって設立されたインターネットアーカイブは、動画、ライブオーディオ、オーディオ、テキスト形式を含むデジタル形式のインターネットサイトやその他の文化的遺物のライブラリを構築した非営利組織です。アーカイブは、研究者、歴史家、学者、一般の人々への無料アクセスを提供します。また、「The Wayback Machine」も備えています。これは、ユーザーがWebページのアーカイブバージョンを時系列で表示できるデジタルタイムカプセルです。 2008年末に、インターネットアーカイブには3つのペタバイト以上の情報が格納されました。これは、議会図書館に含まれる情報の約150倍に相当します。今後、アーカイブは月に約100テラバイトになると予想されます。

alt text
(ソース: gawker.com

もっと herehere

2
Revolter

これは私のpythonスクリプトです。GoogleキャッシュをスクレイプしてWebisteのコンテンツをダウンロードし、503 504 404エラー(Googleは多くのリクエストを送信するIPをブロックします)で問題なく実行できます: https://Gist.github.com/378779

2
PhamThang

構文site:codinghorror.comを使用して、Google画像検索を試してみましたか?

1
Norcross

Googleリーダーアカウントで古い投稿を読むことができます。多分それが役立ちます: relating to your horror

1
Hermen Lesscher

私のCS教授の一人 によって書かれたので、私はWarrickを提案するつもりでした。あなたがそれで悪い経験をしたと聞いてすみません。たぶん、あなたは少なくとも彼にいくつかのバグ報告を伴うメモを送ることができます。

1
David Locke

2009年6月30日までのRSSリーダーにCodinghorrorの全文エントリがあります(それがまったく役立つ場合)。 jake(at)orty(dot)comにメールしてください。 Newsgator Inboxから使用可能な形式でそれらをダンプできるかどうかを確認します。それらをさらに戻す可能性があります(アーカイブされたPSTファイルを掘り下げる必要があります)。画像を手伝うことはできませんが、それは始まりです(肩をすくめる)。

(ネバーマインド:私が提供できる以上のオプションがたくさんあるように見えます。ノイズについては申し訳ありませんが、削除するにはフラグを立ててください。)

1
orty

ブラウザのキャッシュを調べるように依頼するクラウドソーシングができたかもしれません。私は一般にGoogle ReaderでCoding Horrorを読んでいるので、Firefoxのキャッシュにはcodinghorror.comからのものは何も入っていないようです。

他の人はabout:cache?device = diskを参照して、自分のFirefoxキャッシュを見ることができます。

0
GBegen

コンテンツを取得する別のショット。

フィードバーナーを使用して購読しました。だから私のメールにいくつかのアーカイブがあるかもしれません!これらの投稿を転送できる可能性がある他の人に尋ねることができます。

0
Nishant

これは私に一度起こり、私は私のWordPressブログを再構築しなければなりませんでした。あなたがやっているように、検索エンジンのキャッシュからすべてのテキストを回復することができました。ただし、投稿を再作成するときに、元のパーマリンクを付与しないと、受信リンクを本当に台無しにする可能性があります。私は画像をローカルに保存する傾向があるため、画像は私にとってあまり問題になりませんでした。

0
rsrobbins

個々のGoogleページキャッシュファイルの取得を自動化するだけです。

過去に使用したRubyスクリプトは次のとおりです。

http://pastie.org/739757

私のスクリプトには、睡眠がないようです。何らかの理由でIPが禁止されることはありませんでしたが、追加することをお勧めします。

0
Elliot Temple

ホスティング会社から壊れたHDDを入手して、HDD回復サービスに渡そうとすると、見つかると思います。少なくともバックアップイメージはおそらくそこから復元されます。また、このディスクはミラー/ RAIDシステムの一部であり、ミラーイメージがどこかにありますか?

0
BobyB

ほとんどのソリューションは、ブログリーダーアシスタンス、archive.org、およびGoogleキャッシングの組み合わせを使用します。このデータ危機をブログ復旧ツールの仕様に変えることを検討してください。質問と回答に記載されているいくつかの機能は、所有者がルートサイトについて知っていることを考えると、自動化する準備ができているように見えます。

  1. ウェブスパイダーを使用して、アーカイブ可能な手法を回避するarchive.org、Googleキャッシュ、またはローカルキャッシュからページを復元する
  2. 一致するファイル名について、ローカルキャッシュ、Google画像検索、および画像ハックを確認します
  3. 最初の復旧後、サイトに存在しない画像と他のURLのリストを作成します(たとえば、画像の304コードを返します)
  4. キャッシュバージョンを持っている読者向けのアップロードフォームまたは投稿フォームを追加する
  5. サイト所有者が投稿をプレビューおよび検証します
  6. 必要に応じて、検索されたページを検索エンジンに再送信します

迅速な回復から多くの価値を引き出す所有者は、不足しているファイルやその他の外部支援に対して報奨金を提供する場合があります。

0
Matthew Glidden