この質問は https://superuser.com/questions/374386/how-to-store-and-preserve-lots-of-data に触発されました。他にも同様の質問がありますが、同じ基準の質問はありません。
これは1つの2つの質問です。
基準
私の考え:
現在の媒体では、密閉保管されているアーカイブ用紙にアーカイブインクが付いていることを除けば、なんらかのメンテナンスなしで平均100年間持続することが証明されていません。
古い紙はリネンや麻などの素材で作られており、自然にアルカリ性になります。または酸を含まないため、数百年も持続します。 20世紀の紙や最新の紙は、通常、木材パルプから作られます。これは、酸性で、長期間保持されないことがよくあります。
これらの色あせのない永久的なインクは、光、熱、水に耐性があり、紙や写真材料の耐久性に影響を与える可能性のある不純物を含んでいません。ブラックアクチニックインクは化学的に安定しており、他のインク顔料のように不純物を吸収する傾向のない無機顔料を備えています。
弱虫だけがテープバックアップを使用します:_real_ menは重要なものをFTPにアップロードし、世界中の人々にミラーリングさせます
これは、単一のメディア上の単一のコピーに依存するべきではないことを示唆しています。
2002年には、フォーマットを読み取ることができるコンピューターが珍しくなり、ディスクにアクセスできるドライブがさらに希薄になったため、ディスクが読み取れなくなる恐れがありました。元のコードをエミュレートすることの難しさを除けば、主な問題は、静止画像がシングルフレームのアナログビデオとしてレーザーディスクに保存されていたことでした。
http://en.wikipedia.org/wiki/BBC_Domesday_Project#Preservation
http://www.zdnet.com/blog/storage/long-term-personal-data-storage/376
エントロピー(死とも呼ばれます)のため、長い時間枠を保証することは不可能です。宇宙の他のあらゆるものと同じように、デジタルデータは減衰し、死にます。しかし、それは遅くなる可能性があります。
現在、30年以上のコールドデータのアーカイブを保証する、フェイルプルーフで科学的に証明された方法はありません。 ロングナウミュージアムの/ =-Rosetta Disksプロジェクト のようないくつかのプロジェクトは、それでも非常にコストがかかり、データ密度が低い(約50 MB)のですが。
それまでの間、科学的に証明された弾力性のある光学媒体をパナソニックのようなブルーレイディスクHTLタイプのようなコールドストレージや、Verbatim Gold ArchivalのようなアーカイブグレードのDVD + Rに使用して、気密ボックスのソフトスポットに保管することができます(避けてください)。高温)と光の外。
また、冗長化する:データのコピーを複数(少なくとも4つ)作成し、ハッシュを計算して、すべてが正常であることを定期的にチェックし、数年ごとに新しいディスクにデータを再書き込みする必要があります。また、多くのエラー修正コードを使用すると、破損したデータを修復できます!
データが時間とともに破損するのはなぜですか答えは1つの単語にあります:エントロピーこれは宇宙の主要かつ不可避の力の1つであり、システムが時間とともにますます秩序を失います。 データ破損は、まさにビット順序の乱れです。言い換えれば、宇宙はあなたのデータを嫌うです。
エントロピーと戦うことは、死と戦うこととまったく同じです。あなたが成功することは決してありません。しかし、エントロピーを遅くできるのと同じように、死を遅くする方法を見つけることができます。破損を修復することでエントロピーをだますこともできます(つまり、破損を停止することはできませんが、事前に対策を講じていれば、発生後に修復できます!)。生と死についてのように、特効薬も1つの解決策もありません。最良の解決策は、データのデジタルキュレーションに直接関与することです。そして、すべてを正しく行ったとしても、データを安全に保つことが保証されているわけではなく、可能性を最大化するだけです。
良いニュースです:結合良質記憶媒体と良いアーカイブ/キュレーション戦略の場合、データを保持するための非常に効率的な方法があります。 失敗のための設計を行う必要があります。
優れたキュレーション戦略とは何ですか?一つだけ簡単に説明しましょう。見つける情報のほとんどは、アーカイブに関するものではなく、バックアップに関するものです。問題は、ほとんどの人がバックアップ戦略に関する知識をアーカイブに移すことになるため、多くの神話が今では一般的に聞かれるということです。実際、数年間のデータの保存(バックアップ)と、少なくとも数十年にわたる可能な最長期間のデータの保存(アーカイブ)は、まったく異なる目標であるため、異なるツールと戦略が必要です。
幸い、研究や科学的な結果は非常に多いので、フォーラムや雑誌ではなく、それらの科学論文を参照することをお勧めします。ここで、私の読みのいくつかを要約します。
また、クレームや非独立科学的研究にも注意し、そのようなまたはそのような記憶媒体は完璧であると主張してください。有名なBBC Domesdayプロジェクトを思い出してください: "デジタルDomesday Bookは1000年ではなく15年続く" 。調査は本当に独立した論文で常に再確認してください。調査がない場合は、ストレージメディアがアーカイブに適していないと常に想定してください。
(あなたの質問から)あなたが探しているものを明確にしましょう:
長期アーカイブ:機密で再現不可能な「個人」データのコピーを保持したい。 アーカイブは、基本的にバックアップとは異なります。 ここで詳しく説明します :バックアップは、定期的に更新されるため、バックアップに更新する必要がある動的な技術データ用です(つまり、OS、ワークフォルダーレイアウトなど)、アーカイブは静的データであり、一度だけ書き込むと読み取りから時間時間に。 アーカイブは一時的なデータ用です、通常は個人用です。
コールドストレージ:アーカイブデータのメンテナンスをできるだけ避けたい場合。これは大きな制約です。これは、媒体がコンポーネントや書き込み方法を使用しなければならないことを意味します。これは、ユーザーの操作やコンピュータや電源への接続を必要とせずに、非常に長期間安定した状態を保つ書き込み方法です。
分析を容易にするために、最初に冷蔵ソリューションを検討し、次に長期アーカイブ戦略を検討します。
上記で、優れたコールドストレージメディアとは何かを定義しました。操作を必要とせずにデータを長期間保持する必要があります(そのため、コールドと呼ばれています。クローゼットに保管するだけで、プラグインする必要はありません。データを維持するためのコンピュータ)。
紙は、古代から非常に古い原稿を見つけることが多いため、地球上で最も復元力のある記憶媒体のように思えるかもしれません。ただし、紙には主な欠点があります。まず、データ密度が非常に低く(小さな文字やコンピューターツールを使用しても、紙に100 KBを超えて保存することはできません)、それを監視する方法がなければ時間とともに劣化します。紙、ハードドライブと同様に、サイレント破損の影響を受けます。しかし、デジタルデータではサイレント破損を監視できますが、紙ではできません。たとえば、画像が10年間だけ同じ色を保持することを保証することはできません。色が劣化し、元の色が何であったかを見つける方法がありません。もちろん、画像復元のプロであれば、画像をキュレートできますが、これは非常に時間がかかりますが、デジタルデータを使用すると、このキュレーションと復元のプロセスを自動化できます。
ハードドライブ(HDD)は 既知 〜 あり 平均寿命は3〜8年です。長期にわたって劣化するだけでなく、最終的に死ぬことが保証されています(つまり:アクセスできません)。次の曲線は、すべてのHDDが驚異的な速度で停止するこの傾向を示しています。
バスタブ曲線 エラータイプを指定したHDD故障率の推移を示します(任意の設計されたデバイスにも適用可能):
HDD故障率を示す曲線、すべてのエラータイプがマージされました:
故障に比べて3種類のHDDがあることがわかります:急速に死んでいくもの(例:製造エラー、品質の悪いHDD、ヘッドの故障など)、一定の死滅率のもの(良好な製造、さまざまなために死ぬ)通常の」理由、これはほとんどのHDDに当てはまります)、最後に、ほとんどのHDDよりも少し長持ちし、「通常のもの」の直後に最終的に死ぬ堅牢なもの(例:幸運なHDD、あまり使用されない、理想的な環境条件など)。したがって、HDDが死ぬことが保証されます。
なぜHDDは頻繁に死ぬのですか?つまり、データは磁気ディスクに書き込まれ、磁場は消えるまで数十年も続くことがあります。彼らが死ぬ理由は、記憶媒体(磁気ディスク)と読み取りハードウェア(電子ボード+回転ヘッド)が結合であるためです:それらは分離できません。磁気ディスクを取り出して別のヘッドで読み取ることはできません。最初に電子ボード(物理データをデジタルに変換します)は、ほぼすべてのHDDで異なります(同じブランドとリファレンスであっても、元のディスクによって異なります)工場)、そして回転ヘッドの内部メカニズムは非常に複雑なので、今日では人間が回転ディスクを殺さずに完全に磁気ディスクに配置することは不可能です。
さらに、HDDは、使用しない場合(SSDを含む)、長期にわたって消磁することがわかっています。したがって、データをハードディスクに保存してクローゼットに保管し、電気的接続がなくてもデータを保持できると考えることはできません:HDDを少なくとも年に1回またはカップルごとに電源に接続する必要があります年の。したがって、HDDは明らかに低温保管に適していません。
磁気テープ:バックアップの必要性や、拡張のためのアーカイブとしてよく使われます。磁気テープの問題は、それらが非常に敏感であることです:磁性酸化物粒子は、太陽、水、空気、引っかき傷によって簡単に劣化し、時間または任意の電磁装置によって消磁されるか、単に時間とともに落下するか、 プリントスルー 。そのため、通常は専門家がデータセンターでのみ使用します。また、10年以上データを保持できることは証明されていません。それで、なぜ彼らはしばしばバックアップを勧められるのですか?以前は安価だったため、昔はHDDに比べて磁気テープを使用する方が10倍から100倍も安く、HDDは現在よりも安定性がはるかに劣る傾向がありました。したがって、磁気テープは主にバックアップに推奨されます。なぜなら、データのアーカイブに関して私たちが最も関心を持っている回復力のためではなく、費用対効果のためです。
コンパクトフラッシュおよびセキュアデジタル(SD)カードは、非常に頑丈で堅牢であることが知られており、 壊滅的な状況にも耐えることができます 。
ほとんどのカメラのメモリカードは事実上破壊不可能であると、Digital Camera Shopper誌に掲載されています。 5つのメモリカードフォーマットは、コーヒーまたはコーラで煮沸、踏みつぶし、洗浄、および液体に漬けても生き残りました。
ただし、他の磁気ベースのメディアと同様に、データを保持するために電界に依存しているため、カードが不足すると、データが完全に失われる可能性があります。したがって、コールドストレージ(電界をリフレッシュするためにカード上のデータ全体を時々書き換える必要があるため)には最適ではありませんが、バックアップや短期または中期のアーカイブには適しています。
光学媒体:光学媒体は、CD、DVD、Blu-ray(BD)などのデータを読み取るためにレーザーに依存する記憶媒体のクラスです。これは紙の進化と見ることができますが、データを非常に小さなサイズで書き込むため、紙よりも正確で弾力性のある素材が必要でしたが、光ディスクはそれだけです。光学メディアの2つの最大の利点は、ストレージメディアが読み取りハードウェアから切り離されていることです(つまり、DVDリーダーに障害が発生した場合は、いつでも別のディスクリーダーを購入してディスクを読み取ることができます)。レーザーに基づいているため、汎用性があり、将来の証明(つまり、レーザーの作成方法を知っている限り、 CAMILEONがDomesday BBCプロジェクトで行ったように、いつでもレーザーを微調整して光ディスクのビットを読み取ることができます )。
他のテクノロジーと同様に、新しいイテレーションはより大きな密度(ストレージルーム)を提供するだけでなく、より優れたエラー修正と環境劣化に対する耐性(常にではないが、一般的には真)を提供します。 DVDの信頼性に関する最初の議論は、DVD-RとDVD + Rの間であり、DVD-Rが現在も一般的であるとしても、DVD + Rは より信頼性が高い および 正確 であると認識されています。 。現在、特に低温保管用に作成されたアーカイブグレードのDVDディスクがあり、メンテナンスなしで最低20年以上耐えることができると主張しています。
Verbatim Gold Archival DVD-R [...]は、評判の高いドイツのc'tマガジン(c't 16/2008、pages 116-123)による徹底的な長期ストレステストで最も信頼性の高いDVD-Rとして評価されています。 )[...] 18年の最小耐久性と32〜127年の平均耐久性(25C、湿度50%で)を達成します。これらの値に近い他のディスクはありませんでした。2番目に優れたDVD-Rの耐久性は最低5年間でした。
さらに、非常に長期のDVDアーカイブを専門とし、MillenniataのM-DiscやDataTresorDiscのようにそれらを広範囲に販売し、1000年以上データを保持できると主張している企業もあり、 一部 (非独立) 研究 (2009年から) 科学的でない他者 によって検証されました。
これはすべて非常に有望なようです!残念ながら、これらの主張を確認するのに十分な独立した科学的研究はなく、利用可能ないくつかの研究はそれほど熱狂的ではありません。
湿度(80%RH)と温度(80°C)は、データの読みやすさを定期的にチェックするテストの2000時間(約83日)にわたって、いくつかのDVDのエージングを加速しました。
フランスのデジタルデータアーカイブ機関(Archives de France)から翻訳、2012年から調査。
最初のグラフは、劣化の進行が遅いDVDを示しています。急速な劣化曲線を持つ2番目の1つのDVD。 3番目は、M-DiscやDataTresorDiscのような特別な「非常に長期間」のDVD用です。ご覧のように、それらのパフォーマンスは要求に完全には適合しておらず、標準のアーカイブされていないグレードのDVDと同等かそれ以下です!
ただし、M-DiscやDataTresorDiscなどの無機光ディスクには、1つの利点があります。それらは、光による劣化に非常に敏感ではありません。
240時間の光(750 W /m²)を使用した加速老化:
これらは素晴らしい結果ですが、Verbatim Gold ArchivalなどのアーカイブグレードのDVDも同じパフォーマンスを実現します。さらに、ライトはオブジェクトの最も制御可能なパラメーターです。DVDをクローズドボックスまたはクローゼットに入れるのは非常に簡単なので、光の影響をすべて取り除く。光よりも温度と湿度に対して非常に弾力性のあるDVDを入手する方がはるかに便利です。
この同じ研究チームはまた、Blu-ray市場を調査して、長期の冷蔵に適した媒体を持つブランドがあるかどうかを確認しました。ここに彼らの発見があります:
湿度と温度は、DVDと同じパラメーターの下で、いくつかのBlu-rayブランドのエージングを加速しました。
いくつかのBluRaysブランドで同じ加速された老化を軽くします:
Archives de France、2012年のこの研究から翻訳。
すべての調査結果の2つの要約(フランス語) here および here 。
最高のブルーレイディスク(パナソニック製)は、湿度+温度テストでアーカイブグレードの最高のDVDと同様に動作し、光にはほとんど反応しません。そして、このブルーレイディスクはアーカイブグレードすらありません。さらに、Blu-rayディスクはDVDよりも強化されたエラー修正コードを使用し(それ自体がCDに比べて強化されたバージョンを使用します)、データを失うリスクをさらに最小限に抑えます。したがって、一部のBluRayディスクは、コールドストレージに非常に適していると思われます。
実際、一部の企業はパナソニックやソニーなどのアーカイブグレードの高密度ストレージブルーレイディスクに取り組み始めています。 発表 は、平均的な寿命で300 GB〜1 TBのストレージを提供できることを示しています。 50年の。また、 大企業は冷蔵用の光学媒体に移行しつつあります (電力供給なしで冷蔵できるため、リソースを大幅に節約できるため)、 ロボットシステムを開発したFacebookなどブルーレイディスクを「コールドストレージ」として使用するには データがシステムからアクセスされることはほとんどありません。
Long Nowアーカイブイニシアチブ:その他の興味深いリードがあります。たとえば、Long Now美術館の Rosetta Discプロジェクト は、創世記の微視的スケールのページをすべての言語で書くプロジェクトです。ジェネシスが翻訳された地球。これは素晴らしいプロジェクトです。これは、非常に長期間のコールドストレージ(カーボンで記述されているため)に50 MBを保存できるメディアを最初に提供するものであり、拡大鏡だけでアクセスできるため、将来を見越したアクセスが可能です。データ(奇妙なフォーマット仕様も、Blu-rayのVioletビームなどの技術的な面倒もありません。拡大鏡が必要です!)しかし、これらはまだ手作業で作られているため、約2万ドルの費用がかかると見積もられています。これは、個人的なアーカイブスキームには少なすぎます。
インターネットベースのソリューション:データをコールドストアするためのさらに別の媒体がネット上にあります。ただし、クラウドバックアップソリューションは適していません。これは、クラウドホスティング会社がデータを保持したい限り存続しない可能性があることを主な懸念事項とするためです。その他の理由としては、バックアップが非常に遅い(インターネット経由で転送されるため)ことや、ほとんどのプロバイダーは、ファイルをシステム上に存在させてオンラインに保つことを要求します。たとえば、CrashPlanとBackblazeはどちらも、過去30日間に少なくとも一度はコンピュータに表示されないファイルを完全に削除するため、外付けハードドライブにのみ保存するバックアップデータをアップロードする場合は、 USB HDDを少なくとも月に1回、クラウドと同期してカウントダウンをリセットします。ただし、SpiderOakなどの一部のクラウドサービスは、カウントダウンなしで無期限にファイルを維持することを提供します(もちろん、支払う限り)。したがって、選択するクラウドベースのバックアップソリューションの条件と使用には十分注意してください。
クラウドバックアッププロバイダーの代わりに、独自のプライベートサーバーをオンラインでレンタルし、可能であれば、ハードウェア障害が発生した場合に自動的にデータのミラーリング/バックアップを行うサーバーを選択します(契約によって失われるデータを保証するものもあります) 、しかしもちろんそれはより高価です)。これは優れたソリューションです。1つ目はまだデータを所有していること、もう1つはハードウェアの障害を管理する必要がないためです。これはホストの責任です。ホストが廃業した場合でも、データを取り戻すことができます(重大なホストを選択して、一晩シャットダウンしないように事前に通知します。契約にそれを入れるよう依頼することもできます)。他の場所でホストします。
独自のプライベートオンラインサーバーを設定する手間をかけたくない場合、そしてそれを購入できる余裕がある場合、Amazonは Glacier と呼ばれる新しいデータアーカイブサービスを提供しています。目的は、データを長期にわたってコールドストアすることです。したがって、Glacierにデータを保存するには多くのコストがかかりますが、このサービスは、手の届かない場所にデータを保存するように作られているため、頻繁にアクセスしたいデータを保持しない。つまり、このサービスはデータの書き込みだけでなく、読み取りの価格も見積もります。このサービスは莫大な費用がかかりますが、最も機密性の高いデータの一部にとってはかなりの金額になる可能性があります(例:非常に実用的なテキストファイルまたは画像がいくつかある場合、この種類のデータは通常サイズが小さいため、氷河に保管するのにそれほど費用はかかりません)。
コールドストレージの欠点:ただし、コールドストレージメディアには大きな欠陥があります。コールドストレージメディアはデータの整合性を自動的にチェックできないため、整合性チェックはありません(エラー修正スキームを実装するだけで破損が発生した後、少しの損傷を「修復」しますが、防止することも、自動的に管理することもできません!)コンピュータとは異なり、ファイルシステムを計算/ジャーナル化/チェックおよび修正する処理ユニットがないためです。一方、コンピューターと複数のストレージユニットでは、アーカイブの整合性を自動的にチェックし、データアーカイブで破損が発生した場合は、必要に応じて自動的に別のユニットにミラーリングできます(同じアーカイブのコピーが複数ある場合)。
現在利用可能な最高のテクノロジーを使用していても、デジタルデータは数十年(約20年)の間のみコールドストアできます。したがって、長期的には、コールドストレージのみに依存することはできません。データをアーカイブするプロセスの方法を設定し、技術的な変化があったとしても、データを確実に取得できるようにし、リスクを最小限に抑える必要があります。あなたのデータを失うことの。つまり、データのデジタルキュレーターになり、破損が発生したときに修復し、必要に応じて新しいコピーを再作成する必要があります。
絶対的なルールはありませんが、確立されたキュレーション戦略をいくつか挙げます。特に、作業を簡単にする魔法のツールです。
2つのコンパスを用意しても意味がありません。一方が失敗した場合、どちらが正しいか、または両方が間違っているかどうかは決してわかりません。常に1つ、または4つ以上のコンパスを取ります。
エラー修正コード:これは、あなたの生活をより簡単にし、データをより安全にする魔法のツールです。エラー修正コード(ECC)は、データの修復に使用できるデータを生成する数学的な構造です。 ECCは、単純なレプリケーションよりもはるかに少ないストレージ領域を使用して、より多くのデータを修復できる(つまり、ファイルの複数のコピーを作成する)で、さらに効率的です。ファイルに破損がないかどうかを確認し、これらの破損の場所を特定するも行います。実際、これは冗長性の原則を適用したものですが、レプリケーションよりも賢い方法です。この手法は、4G、WiMax、NASAの宇宙通信など、今日のあらゆる長距離通信で広く使用されています。不幸なことに、ECCは電気通信では遍在していますが、ファイルの修復には含まれていません。ただし、よく知られている(現在は古い)PAR2、 DVD Disaster (光ディスクにエラー修正コードを追加できる)、 pyFileFixity (これは、 PAR2の制限と問題を克服するために一部開発しました)。 LinuxのZFSやWindowsのReFSなど、リードソロモンをオプションで実装するファイルシステムもあります。これらは、技術的にはRAID5を一般化したものです。
整合性を確認するファイルの定期的に:ファイルをハッシュし、時々(つまり、1年に1回ですが、ストレージメディアと環境条件によって異なります)確認します。ファイルが破損していることがわかったら、生成したECCを使用して修復するか、新しいストレージメディアにデータの新しいコピーを作成します。データのチェック、破損の修復、新しいコピーの作成は、データが安全であることを保証する非常に優れたキュレーションサイクルです。ファイルのコピーは静かに破損する可能性があるため、特にチェックすることは非常に重要です。改ざんされたコピーをコピーすると、ファイルが完全に破損することになります。これは、データの完全性を自動的にチェックできない光ディスクなどのコールドストレージメディアではさらに重要です(ビットを修復するためにすでにECCを実装していますが、新しいコピーを自動的にチェックしたり作成したりすることはできません!) 。ファイルの変更を監視するには、 pyFileFixity のrfigc.pyスクリプト、または md5deep などの他のUNIXツールを使用できます。 Hard Drive Sentinel またはオープンソース smartmontools などのツールを使用して、ハードドライブなどの一部のストレージメディアのヘルスステータスを確認することもできます。
アーカイブメディアをさまざまな場所に(少なくとも1つのコピーを家の外に!)に保管して、洪水や火事などの実際の壊滅的なイベントを回避します。たとえば、仕事で1枚の光ディスク、またはクラウドベースのバックアップは、この要件を満たすための良いアイデアです(他のコピーがある限り、クラウドプロバイダーをいつでもシャットダウンできる場合でも、安全です、クラウドプロバイダーは、緊急の場合にのみオフサイトアーカイブとして機能します)。
特定の環境パラメーターが制御されたコンテナーに保管します:光学媒体の場合は、光を避けて、湿気を避けるために水密ボックスに保管します。ハードドライブとsdカードの場合、残留磁気を回避してドライブを改ざんしないように、耐磁性スリーブに保管します。気密および水密のバッグ/ボックスに保管して、冷凍庫に保管することもできます。温度が低いとエントロピーが遅くなり、そのようなストレージメディアの寿命をかなり延ばすことができます(水が確実に失われるようにしてください)内部に入らないでください。そうしないと、媒体がすぐに死んでしまいます)。
良質のハードウェアを使用して事前に確認します(例:SDカードを購入する場合は、HDDスキャンなどのソフトウェアでカード全体をテストして、データを書き込む前にすべてが正常であることを確認します)。 Archives de Franceの調査で示されているように、品質は書き込み済みディスクの品質を劇的に変化させる可能性があるため、これは光学ドライブにとって特に重要です(悪いDVDバーナーは、DVDの生産性が大幅に低下します)。
ファイル形式は慎重に選択してください。すべてのファイル形式が破損に強いわけではなく、明らかに弱いファイル形式もあります。たとえば、.jpg画像は、1バイトまたは2バイトのみを改ざんすることにより、完全に壊れて読めなくなる可能性があります。 7Zipアーカイブについても同様です。これはばかげているので、アーカイブするファイルのファイル形式に注意してください。経験則として、単純なクリアテキストが最適ですが、圧縮する必要がある場合は非ソリッドZipを使用し、画像の場合はJPEG2を使用します(まだオープンソースではありません...)。プロデジタルキュレーターの詳細情報とレビュー こちら 、 こちら 、 こちら 。
データと一緒に保管して、データの読み取りに必要なすべてのソフトウェアと仕様をアーカイブします。仕様は急速に変化するため、将来、ファイルにアクセスできたとしても、データを読み取ることができなくなる可能性があることに注意してください。したがって、オープンソース形式とソフトウェアを選び、プログラムのソースコードをデータに沿って保存して、常にプログラムをソースコードから適応させて、新しいOSまたはコンピューターから起動できるようにする必要があります。
私はできる限りのものを使用することをお勧めしますが、常に冗長性の原則を守り(4つのコピーを作成してください)、常に整合性を定期的にチェックし(MD5/SHA1ハッシュのデータベースを事前に生成する必要があります)、新しい破損した場合のコピー。これを行うと、ストレージメディアが何であれ、必要な限りデータを技術的に保持できます。各チェックの間隔は、ストレージメディアの信頼性によって異なります。フロッピーディスクの場合は2か月ごとにチェックし、Blu-ray HTLの場合は2/3年ごとにチェックします。
最適な状態で、低温保存でBlu-ray [〜#〜] htl [〜#〜]ディスクまたはアーカイブグレードDVDディスクを水密不透明に保存することをお勧めしますボックスと新鮮な場所に保管されています。さらに、SDカードやSpiderOakなどのクラウドベースのプロバイダーを使用して、データの冗長コピーを保存したり、アクセスしやすい場合はハードドライブを保存したりすることもできます。
たくさんのエラー修正コードを使用してください、彼らはあなたの日を節約します。また、これらのECCファイルの複数のコピーを作成することもできます(ただし、ECCSファイルは自分で修復できるため、データの複数のコピーは、ECCの複数のコピーよりも重要です!)。
これらの戦略はすべて、私が開発している一連のツール(オープンソース)を使用して実装できます: pyFileFixity 。このツールは、ファイルの固定性を完全に管理するための無料のツールがないことを発見した後、実際にこの議論によって開始されました。また、ファイルの固定性とデジタルキュレーションの詳細については、プロジェクトのreadmeおよびwikiを参照してください。
最後に、この問題についてより多くの研究開発が行われることを期待しています。これは現在の社会にとって大きな問題であり、デジタル化されるデータはますます増えていますが、この大量の情報が数年以上存続するという保証はありません。それは非常に憂鬱なことであり、この問題はもっと前面に出すべきだと私は本当に思っています。そのため、これは、建設業者や企業が将来の世代に耐えられるストレージデバイスを作るためのマーケティングポイントになるでしょう。
/ EDIT: 実用的なキュレーションルーチンについては以下をお読みください 。
上記の私の以前の回答 の簡単なフォローアップ、これはより簡潔になり、30Kの長さのために最初の回答に追加できない追加の(ただし重要ではない)情報と参照で拡張されます制約。
長期アーカイブはキュレーションプロセスであるため、プロセスをより効率的にし、時間(およびリソース)の消費を少なくするために注意が必要なことがいくつかあります。
重複排除:長期的なアーカイブを確実に行う唯一の方法は、意図的に設計された冗長性を使用することなので、無用な冗長データ(たとえば、USBキーからフェッチしたファイルのコピー)を避けたいアーカイブ用のハードドライブですが、メインのコンピューターからコピーが既に作成されています!)。通常duplicatesと呼ばれる不要な冗長データは、ストレージコストが低い(ストレージリソースがより多く必要ですが、必要なときにそれらを見つけるのに苦労します)プロセスにとって悪い(同じファイルの異なるバージョンがある場合はどうなりますか?どのコピーが正しいものであるかをどのようにして知ることができますか?)そしてあなたの時間(すべてのアーカイブにバックアップを同期するときの転送時間に追加されます)。そのため、専門のアーカイブサービスは通常、自動重複排除を提供します。まったく同じファイルは同じiノードを取得し、追加のスペースを必要としません。これは、たとえばSpiderOakが行うことです。使用できる自動化ツールがあり、ZFS(Linux)またはReFS(Windows)ファイルシステムが自動的に実行します。
優先順位付け/分類:ご覧のように、長期アーカイブは定期的に実行する必要がある時間のかかるプロセスです(正常性チェック、メディア間でのアーカイブの同期、新しいアーカイブの作成)死にかけているものを置き換えるための媒体、エラー修正コードを使用してファイルを修復するなど)。コストのかかる時間を最小限に抑えるには、カテゴリに基づいてデータの優先度に応じて異なる保護スキームを定義してみてください。長期アーカイブに使用する外付けハードドライブの1つにコンピューターデータを移動する場合、バックアップの優先順位を定義する1つのフォルダーに直接配置します:「重要ではない」、「個人」、「重要」、「重要」次に、フォルダーごとに異なるバックアップ戦略を定義できます。一生維持したい最も重要なデータ(重要なフォルダー)に対してのみ、完全な保護(たとえば、3つのハードドライブ+クラウド+エラー修正コード+ブルーレイでのバックアップ)を予約します。 、次に「重要な」データの中程度の保護(3つのハードドライブ+クラウドでのバックアップなど)、次に「個人用」のデータは少なくとも2つの外付けハードドライブにコピーされ、「重要でない」データはコピーされません(または1つのハードディスク上にある可能性があります)同期が長すぎない場合はドライブしてください...)。通常、「重要でない」にはほとんどのデータが含まれ、次に「個人的」に少なく、「重要」にははるかに少なく、「重要」にはかなり小さい(50 GB未満)と表示されます。たとえば、「クリティカル」では、あなたの家の契約とあなたの結婚と出産の写真を入れます。次に、「重要」には、法的文書、思い出に残る出来事のいくつかの重要な写真やビデオなど、失いたくないドキュメントが含まれます。「個人」には、休日のすべての個人的な写真、ビデオ、および作業文書を入れます、これらは保持したいドキュメントとメディアですが、それらを失っても後悔することで死ぬことはありません(通常、このフォルダーは巨大であるため、長期的にはいくつかのファイルを失うことになるので、それは良いことです... )。 「重要でない」とは、インターネットからダウンロードしたもの、またはソフトウェアやゲーム、映画など、本当に気にしていないさまざまなファイルやメディアをダウンロードしたものです。つまり、長期間アーカイブするファイルが多いほど、難しく(時間もかかります)なので、この特別な扱いができるファイルを保持するようにしてください。最小限に。
メタデータは重要なスポットです:優れたキュレーション戦略があっても、通常、保護されていないものが1つあります。それはメタデータです。メタデータには、ファイルに関する情報が含まれます。たとえば、ディレクトリツリー(そうです、これはほんの数バイトです。これを失うと、ファイルが完全に乱れます!)、ファイル名と拡張子、タイムスタンプ(これはこれは大したことではないように思われるかもしれませんが、次のことを想像してみてください。もし明日、すべてのファイル(ソフトウェアなどが同梱されているファイルを含む)がすべて1つのフラットフォルダーに入れられ、ファイル名も拡張。手動検査により、コンピューター上の何十億ものファイルから必要なファイルを回復できますか?これは異常なシナリオだとは思わないでください。停電やコピーの途中でクラッシュが発生するのと同じくらい簡単に発生する可能性があります。書き込まれているパーティションが完全に破壊される可能性があります(悪名高いRAW)。この問題を克服するには、データを回復するためのデータを準備して準備する必要があります。メタデータを確実に保持するには、 non-solid archives を使用して、ファイルをメタデータと統合できます。 Zip DEFLATEまたは [〜#〜] dar [〜#〜] (しかし not tar )として。 DVDisaster(光ディスクの場合)やZFS/ReFS(ハードドライブの場合)など、一部のファイルシステムは自動メタデータ冗長性を提供します。その後、メタデータがクラッシュした場合は、TestDiskまたはGetDataBack(ディレクトリツリーの部分的な回復を許可)またはISOBuster(光ディスクの場合)を使用してパーティションを回復し、ディレクトリツリーおよびその他のメタデータを回復することができます。これがすべて失敗した場合は、PhotoRecを使用してファイルスクレイピングにフォールバックできます。これにより、認識したすべてのファイルが抽出されますが、ファイル名もタイムスタンプもない状態では、データ自体のみが回復されます。重要なファイルを圧縮した場合は、Zip内のメタデータを復元できます(Zip自体にメタデータが含まれなくなっても、少なくともファイル内には正しいメタデータが残っています)。ただし、手動ですべてのfilescrapedファイルを手動でチェックする必要があるため、時間がかかります。この可能性から保護するには、pyFileFixityまたはPAR2を使用して完全性チェックサムファイルを事前に生成し、ファイルスクレイピング後にこの完全性チェックサムファイルを使用して、ファイルの内容に応じてファイルを自動的に認識して名前を変更します(これは、ファイルスクレイピングメタを自動化する唯一の方法です。ファイルの復元では技術的にはメタデータではなくコンテンツのみを復元できるため、データの復元。
ファイル形式とキュレーション戦略を自分でテストします:どの形式の種類が他の形式よりも優れているかについての記事の言葉を信頼する代わりに、自分で pyFileFixity filetamper.py または、一部のファイルでいくつかの16進文字を置き換えることにより、ほとんどのファイル形式はわずか3つの異なるバイトで分解できることがわかります。したがって、ファイル形式は慎重に選択する必要があります。メモには単純なテキストファイルを使用し、メディアには復元力のあるファイル形式を使用してください(これらはまだMPEG-4変数エラー修正コードなどで作業中です) 、ffmpegがそれを実装するか、refが追加されます)、または独自のエラー修正コードを生成します。
統計的調査を読んで、主張を信じないでください:前の回答で述べたように、科学的事実なしに、記憶媒体の寿命について常に贅沢な主張が行われています。それについては特に警戒する必要があります。確かに、製造業者が偽物であり、検証できない、長寿の主張について自慢することを妨げる法律には何もありません。 ハードドライブの故障率に関するBackBlazeの年次レポート などの統計調査を参照することをお勧めします。
長期保証の記憶媒体を取る。保証ではデータを取り戻すことはできませんが、プロデューサーが製品の故障率を評価する方法について通知します(保証期間中に故障率が高すぎるとコストが高くなるためです)。
使用しているスキームの更新:上記の優先順位付け戦略を適用し、クラウドバックアップサービスSpiderOakをスキームに追加しました。これは、無限ストレージのプランがあり、完全に暗号化されているため、データの唯一の所有権を保持しているためです。私はデータの唯一のバックアップメディアとしては使用しません。これは追加のレイヤーにすぎません。
だからここに私の現在のスキームがあります:
私の日課は次のとおりです。私は常に、2.5のポータブルUSB HDDを1つ持っています。重要なものを隠して(コンピューターからHDDにファイルを移動)、重要なものをバックアップしたり(ファイルをHDDにコピーしますが、コピーは自分で保持します)コンピューター)。本当に重要なものについては、SpiderOakへのオンラインバックアップをアクティブ化します(重要なものを含むフォルダーがコンピューターにあるので、そこに重要なファイルを移動するだけで、SpiderOakによって自動的に同期されます)。本当に重要なファイルの場合は、pyFileFixityを使用してエラー修正ファイルも計算します。
要約すると、重要なものについては、ポータブルHDD、SpiderOakクラウド、および私のコンピューターに保存しているので、いつでも3コピーありますたった2つのクイックアクションで(ポータブルHDDにコピーして、SpiderOakフォルダに移動します)。 1つのコピーが破損した場合、pyFileFixityを使用してそれらを修正するために多数決を行うことができます。これは非常に低コストのスキーム(価格と時間の両方)ですが、非常に効率的であり、デジタルキュレーションのすべてのコアテネスト(トリプル冗長性、異なる場所での異なるコピー、異なるメディア、整合性チェックとSpiderOakによるecc)。
その後、3〜6か月ごとにポータブルHDDを自宅の2番目のHDDに同期し、6〜12ヶ月ごとにポータブルHDDを別の家にある3番目のHDDに同期します。これはローテーションの追加の利点を提供します(6か月以内に最後のバックアップで問題が発生し、重要なファイルを削除した場合、2つのホームHDDの1つからそれらを取得できます)。
最後に、DVDisasterを使用してBluRayディスクにいくつかの非常に重要なファイル(およびpyFileFixityを使用した追加のeccファイル)を書き込みましたが、それが必要かどうかはわかりません)。クローゼットの気密ボックスに保管します。数年おきにチェックしています。
つまり、私のスキームはそれほど大きな負担ではありません。毎日、ファイルをポータブルHDDとSpiderOakフォルダーにコピーするのに数分かかり、その後6か月ごとに1つまたは他の家庭用HDDと同期するだけです。 。同期する必要のあるデータの量によっては、最大で1日かかる場合がありますが、ソフトウェアによって自動化されるため、コンピューターにソフトウェアを実行させ、他のことを実行させるだけです(私が購入した100ドルのネットブックを使用しています)そうすることで、コピーの途中でコンピューターがクラッシュすることを心配することなく、メインコンピューターで同時に作業できるようになりますこれは恐ろしいことに、書き込まれているハードドライブを破壊する可能性があります)。エラー修正コードとBluRayスキームは、非常に重要なデータにはほとんど使用されないため、少し時間がかかりますが、まれです。
このスキームは、(いつものように)拡張できます。たとえば、ハードドライブでZFS/ReFSを使用して:これは、自動化されたReed-Solomonエラー修正コードの保護と整合性チェック(および dittoblocks !)手動での操作なしで(pyFileFixityとは異なり) ZFS 現時点ではWindows OSでは実行できません ですが、ファイルシステムレベルで同様のエラー修正制御を可能にするReFSがあります。また、これらのファイルシステムを外付けHDDで使用することをお勧めします。自動化されたRSエラー修正と重複排除機能を備えたZFS/ReFSを実行するポータブルHDDはすばらしいはずです! (そして ZFSは非常に速いようです なので、コピーは高速でなければなりません!).
最後の注意点: このリスト内 などのファイルシステムのECC機能に関する主張には注意してください。これは、ほとんどの場合、メタデータ( [〜#〜] apfs [など)のみに限定されているためです。 〜#〜] )またはRAID 1ミラーリング( btrfs )に。私の知る限り、ZFSとReFSだけがメタデータとデータの両方の実際のエラー修正コードを提供します(単純なミラーリングではありません)。特にZFSは現在最も進んでいます(ただし、2018年の時点ではまだ実験段階です)。特に、ReFSドライブは起動できないためです。 。
/ UPDATE 2020:新しいソリューションが出てきており、それらはまだ初期の実験段階にあり、不変のブロックチェーンに基づいた分散型アプローチを使用しており、ほとんどの場合はおそらく現在使用できませんが、調査することは非常に興味深いです(私は重要なデータをバックアップするためにそれらに依存しないでください。ただし、冒険的だと感じた場合は、それらをセカンダリバックアップとして使用できます)。
簡単な解決策はありません。アーカイブのメンテナンスはプロセスであり、1回限りのジョブではありません。現在利用可能な3つのアーカイブメディアタイプにはそれぞれ独自のプラスとマイナスがありますが、これらの引数はすべてのメディアタイプに適用されます。
明らかな理由により、DVDやハードディスクを30年または100年保管した人はいません。したがって、実績はなく、メディアがどのように老朽化するか誰も知りません。人工的な老化テストはあまり証明されず、ベンダーのテストに依存します(公平ではありません)。
最良の結果を得るには、メディアを管理された環境で保管する必要があります(一定の温度/湿度、暗い場所など)。そうしないと、メディアの寿命が大幅に短くなります。
メディアを読み取るハードウェアおよびソフトウェアを維持する必要があります(たとえば、SATAインターフェイスは30年後にはすぐに利用できない場合があります)。
ですから、私の意見では、ホームユーザーまたは中小企業のための唯一の実行可能なソリューションは次のとおりです。
マイクロフィルムに行きます。それがまだ製造されているかどうかはわかりませんが、製造されていない場合は驚きます。シルバーベースのネガは、正しく保存されていれば何百年も続きます。もちろん、これは莫大な投資であり、写真や視聴のために部屋全体を占有しますが、それはストレージを考慮していません。つまり、メンテナンスなしで本当に100年以上を意味する場合に限られます。
そうでない場合-タイムカプセルを作成しない限り、可能性はありません-HDDバックアップを使用して、10〜15年ごとにすべてを新しいメディアにコピーします。実際、メディアの老朽化に対する保険は、10年ごとにすべてをコピーするよりも優れています。マイクロフィルムよりも、粘土板よりも、砂漠の砂に埋もれた石のオベリスクよりも優れています。
最大5 TB(またはそれ以上)で、最大30年まで 磁気テープ 別名テープドライブに安全に保存できます。今回は証明されています。 ブルーレイのレコーダブル は、30年間も安全に保管できますが、容量は約100GBです。
お金が多ければ、黒/白の35mmフィルムに保管します。今後700年間、データは(密度に応じて)復元できると想定されています。 ( ウィキペディアへのドイツ語リンク )
表面に顕微鏡でエッチングされた直径3インチのニッケルディスクをお勧めします。
http://rosettaproject.org/blog/02008/aug/20/very-long-term-backup/
「M-Disc」が特別なライターを必要とするDVDを作成したが、一般的なDVDリーダーで読み取ることができることを読んだ。彼らは1000年の推定寿命を主張し、それを正確にテストすることはできないと述べています。太陽への長時間の露出、傷、複数回の使用など、ディスクは100%使用可能です。このシステムに遭遇した人からのフィードバックに興味があります。
新しいラップトップ/ PCにM-Discドライブをインストールする可能性があるDellからの抜粋です。
M-DISC Readyは、無機質の岩のような素材にレーザーエッチングデータを送り込み、データの損失を防ぎ、ファイルを安全に保管し、最長1000年間保存できると、同社は述べています。
有機染料を使用してデータを保持する他のすべての書き込み可能なDVDとは異なり、Mディスクは時間の経過とともに色褪せたり劣化したりしません。
そのような期間の場合、既に紙にある(または情報を失うことなく簡単に印刷できる)ものは、その形式で保存するのが最善です。ハードコピーに使用する紙とトナーに注意してください。
他のものに関しては、私はそれらの期間にわたって持続するであろう現在使用されているデジタル媒体を知りません。コレクションを更新するために時間(そしてお金)を費やしている場合、磁気テープは実行可能なオプションになる可能性がありますが、1つのテープが故障した(または、テープドライブは、テープを読み取ったときにテープを壊してしまう可能性があります)。
そして、実際のメディアを試してみることができたとしても、100年後はもちろんのこと、プログラムが30年後にメディアを読み取ることができるかどうかという問題に直面することになります。
一般的なCD-RやDVD-Rは、重要なデータをアーカイブするには十分な信頼性がないことは事実です。しかし、すぐに崩壊しないDVDを取得できます。
誰かがすでに述べたように、M-Discと呼ばれる新しい技術があります。それらは非常に信頼できます: http://www.zdnet.com/torture-testing-the-1000-year-dvd-7000023203/ 我々は始めました本番マシンのディスクのイメージを保護するために使用します。すでに市場にはBlu-Rayがあります。唯一の欠点は、従来のB-RDよりも遅いことです。
長寿命のバックアップを実現するには、さまざまなテクノロジー、場所、メディアを組み合わせる必要があります。
この問題を解決する方法が必要な場合は、デジタルプレセーションフィールドを検討する必要があります。
http://en.wikipedia.org/wiki/Digital_preservation
デジタル保存とは、デジタルマテリアルを存続させて、技術の進歩によって元のハードウェアおよびソフトウェアの仕様が廃止されても使用できるようにする方法です(Wikipedia)
参照モデルもあります:OAIS http://en.wikipedia.org/wiki/Open_Archival_Information_System
それを達成するためのいくつかのオープンソースおよび商用ソリューションがあります。ライブラリとアーカイブは、このテクノロジーを使用して、デジタル化された本を長期間保存します。
あなたの答えは簡単です:
https://wiki.openstack.org/wiki/Cinder
Openstackは、「未知の」ストレージに近いシステムです。障害ノードをアップグレードしたり、現在私たちには未知の将来のテクノロジーでも新しいノードに交換したりできるためです。このシステムでは、データは少なくとも2つ、最大5つの場所に同時に存在するため、完全なストレージノートは失敗し、データはまだ存在しています。最大50 PB(検証済み)-110 PBまで拡張できます。基本的には、ハードウェアにSWレイヤーを追加し、ストレージを無期限に存続させます。これは、非常に大きなレイドセットの再構築時間の制限により、レイドセットの現在の健全な障壁を克服しています。コストは、従来のRAIDストレージシステムの約50%です。これをリファレンスアーキテクチャとして採用したFUJITSUのシステムを知っています:CD10000