web-dev-qa-db-ja.com

計画したバックアップ戦略は、新しいサーバーインフラストラクチャに適していますか?

現在、古いサーバーを移行するための新しいサーバーをセットアップ中です。
基本的に、RAID5上で6つ以上の仮想ボックスサーバー(WindowsおよびLinux開発、アプリケーション、データベース、およびいくつかのテストワークステーション)を実行するWindows Server(2003または2008)があります。

また、データ(ファイルとSVNリポジトリ)を一元化する必要があるため、ファイルサーバーが必要になります。管理者の経験がなく、これまでバックアップを行ったことがないので、ファイルサーバーの仮想化の経験はありますか?物理的なボックスで実行するのが最善ですか?これを実行するためのアドバイスは大歓迎です。

バックアップ戦略について、今のところスケッチしたものは次のとおりです。
注:お金の制約があるため、今のところテープバックアップはオプションではありません。

このアプローチは合理的だと思いますか?私たちが確かに欠けていることを実行するための多くの側面があると確信しています。

最後に、私たちが心配しているのは、virtualboxマシンをバックアップする方法だと思います。簡単な方法の1つは、everithingを単純にバックアップすることです(質問の1つで推奨されているように、私はそれを見つけることができません...)。
そのvboxに含まれるデータについてのアドバイスは何ですか?また、バックアップする必要がありますか(「念のため...」)、または仮想イメージを直接バックアップしても安全ですか?

追加情報として役立つ場合は、BackupExecを使用する予定です。

これを読むために時間を割いてくれてありがとう。

----- 2009/08/04更新-----

健康上の理由から、私はこの質問を続けることができません。私の質問に答えてくれた人たちのおかげで、それは大きな助けになりました。

これが私たちがスケッチしたバックアップ計画です。私たちはより多くの背景を持っています:私たちは(南アメリカの)小さな会社なので、今のところテープドライブを買う余裕はありません。

オフサイトでもオフラインでもない場合、私はbacukpはbacukpではありませんが、お金の制約からより良い戦略を得ようとしています。

データ損失ウィンドウ:1日/ 8時間。回復時間:1日/ 8時間。バックアップするもの:すべて(データとサーバーのインストール)

  • 毎日:おそらくBackupExecを使用して、物理バックアップサーバーへの差分バックアップを毎日実行します。誰かが、SATAをサポートするこれらの外部ストレージハブの1つを使用することを提案しました。別の提案では、テープを入手できる間にストレージサービスにアップロードすることを提案しました。現在、オフサイトに移動するオプションはありません(したがって、データ損失ウィンドウ「偽物」)
  • 毎週:外付け1TBドライブで完全バックアップを取ります。
  • 月次/年次:週次と同じ。これらのバックアップをどこに保存するかという問題があります

シンプルにしたいと思っていますが、オフサイトバックアップのリークを克服するための日々の戦略すべてで複雑になっていると思います。

1
nick2083

私の標準的なバックアップアドバイス:

バックアップの全体的なポイントは復元できることです。自分のものを取り戻すことができると完全に確信していない限り、バックアップは役に立たない。バックアップソリューションに実装するものはすべて、「これからどのように復元するか」という観点から行う必要があります。

テープはそれほど高価ではなく、ディスクよりもはるかに耐久性があるという利点があります。可動部品が少なく、常に電流が流れていない、すべて良いものです。それが一度あなたのお尻を救うなら、それは私の本ですでにそれ自身のために支払われています。

「どれだけのデータを失う余裕があるか」だけでなく、「DRシナリオの場合にどれだけの期間ダウンする余裕があるか」も考慮する必要があります。 3日間の復元時間は、3日間のビジネスの損失です。復元時間を数時間で、片方の手の指で数える必要があります。

ただし、これについて偏執的になりすぎると、すぐにばかげたお金に入る可能性があるため、サーバーを2つまたは3つのロットに分割することを検討する必要があります。コアビジネス機能を継続するために絶対に今すぐ取り戻す必要があるもの、およびコア機能が戻るまで延期できるもの。最初のロットに多額の投資を行い、片方の手を後ろで縛った盲目の癲癇猿が従うことができる復元手順(OS、アプリケーション、およびデータ)を完全に文書化したことを確認します。 コピーを印刷して製本し、耐火金庫に保管してください-電子コピーだけがあり、紛失または破壊された場合、あなたは困惑します。しかし、これは、2番目のロットで緩くなる可能性があることを意味するとは思わないでください。ただ、それらを取り戻すのを遅らせるか、そうするのに少し時間がかかる可能性があります(たとえば、遅いメディアに置くことによって)。

具体的な例:確かに、コアファイルサーバーは最初のロットに入ります。 HRサーバーは2番目のロットに入ります。人事担当者にとっては重要ですが、人事システムがなくても、コアビジネス機能は数日間は問題ありませんか?うん、そうなると思う。

バックアップソリューションをシンプルで退屈なものにしてください。非常に頻繁に、複雑すぎて面倒で信頼性の低い、派手なバックアップソリューションや複雑なバックアップソリューションを実装している人を目にしました。バックアップは退屈である必要があるため、バックアップは退屈です。それらが単純であるほど、復元が容易になります。 「meOg、Ogクリックボタン、Ogデータを取り戻す」アプローチが必要です。 毎日の手動要素をそこに保持します。これはドリルを確立するのに役立ち、誰かがテープを交換したり、プールでHDを回転したりするのを忘れる状況を回避できます。これが起こった場合、後で責任者を解雇することができますが、何を推測しますか?あなたはまだ1か月のデータを失った立場にいます。

3
Maximus Minimus

ニック、

O'Reillyの「Backup&Recovery」という本をご覧になることを強くお勧めします。

http://oreilly.com/catalog/978059610246

「単一障害点」などの用語と、重要なシステムをバックアップするための一般的な戦略について説明します。

これは誰の本棚にも良い本です。

2
KPWINC

重要な質問は、どのくらいのデータを失う準備ができているかです。一ヶ月?ある日? 6時間? 5分?

データ損失ウィンドウが小さくなると、コストが高くなります。

1
James Moore
  • RAIDはライブシステム用であり、ローカルバックアップやジャーナルスナップショットが含まれる場合があります。
  • テープは、旅行、オフサイトバックアップ用の耐衝撃性です。ただし、テープは高いサイクルレートを処理しません(平均250回の上書き)
  • ディスクはテープよりも安価で高速であり、はるかに高い上書き機能を備えています。

専門知識がない場合は、バックアップシステムを個別にレイドすることはお勧めしません。冗長性がより重要です。 5台のドライブで構成されるRAIDシステムは、5台の個別のドライブよりも全体的にはるかに高い障害率を示します。バックアップシステムに障害が発生した場合、新しいシステムが構築されてテストされるまで、すべてがダウンします。 RAIDコントローラに障害が発生すると、すべてが失われます。パリティよりも多くのドライブに障害が発生すると、すべてが失われます。多くの場合、同じコントローラーにロックされ、予備のコントローラーを購入する必要があります。そうしないと、必要に応じてコントローラーを見つけて同じコントローラーに交換するのに時間がかかります。ディスクのサイズとモデルにある程度固定されています。別々のディスクを使用してドライブに障害が発生した場合は、同じ金額で新しい、より大きなドライブを購入できます。

もう1つのオプションは、5〜1テラバイトの外付けSATAドライブをそれぞれ90ドル購入す​​ることです。総コストは450ドルです。

マシン、RAIDカード、RAID構成は必要ありません。各ドライブは、異なるメーカー、モデル、サイズにすることができます。

ドライブを回転させ、テープを使用して会社の銀行の貸金庫にオフサイトで保管します。潜在的なデータ損失ウィンドウの量が多くなる可能性がありますが、これは、各バックアップスケジュールで最大2つ以上、またはディスクとテープをバックアップするか、ライブシステムにスナップショット/ジャーナリングを追加することで軽減できます。

データをパブリックと機密に分割できる場合は、ワークステーションの余分なスペースをパブリックバックアッププールに使用できます。各ワークステーションにテラバイトを配置し、それぞれから500MBをバックアッププールに割り当てます。この領域は、パブリックデータのバックアップコピーまたは暗号化されたプライベートバックアップデータに使用します。

これは、回復するのに最も簡単で最速のセットアップです。 Baculaはこのスタイルのバックアップでうまく機能します。私が見て使用した最良のセットアップは、ローカルバックアップがジャーナル差分バックアップに1時間ごとに使用され、外部ディスクに書き込まれるライブRAIDシステムです。ローカルワークステーションで暗号化されて冗長性が確保され、オフサイトストレージ用に毎日テープに記録されます。

襲撃はアクティブなシステムにとって意味があります。 RAID5をRAID60またはデータと負荷に最適なものにアップグレードします。次に、ライブシステムの余分なスペースを使用して、スナップショットバックアップを保存します。ローカルディスクバックアップは可能な限り最速であり、バックアップトランザクションのためにシステムがロックされる時間が最短であることを意味します。これらのスナップショットを外部またはテープにバックアップすることは、昼食時および日中の使用率の低いポイントで実行できます。

必要に応じて、データタイプ、ディレクトリ、ファイルなどごとに異なる頻度でバックアップ計画を作成します。できるだけ頻繁に、できればすべてのファイル書き込みでローカルにバックアップします。 (ジャーナリング)ローカルバックアップをできるだけ早くシステムから削除します。 (少なくとも毎日)バックアップデータのコピーをできるだけ多く作成します。 (通常は5で十分です)

1
joe

b「バックアップ」についていつもコメントします。

バックアップはオフサイトでオフラインです。オフサイトでもオフラインでもない場合は、バックアップではありません。

  • 建物が全焼した場合、オフサイトは重要です。オンサイトだがオフライン(引き出しの中にプラグが抜かれた外付けハードディスクドライブを考えてください)、建物が燃え尽きると消えます( サーバーからのすすの除去 を参照)。

  • 誰かがあなたを攻撃し、あなたのデータを破壊しようとする場合、オフラインは重要です。オフサイトであるがオンラインである場合、攻撃や「破損」に対して脆弱です。オフラインとは、「バックアップとネットワーク間のエアギャップ」を意味します。

バックアップのタオ 少し安っぽい売り込みですが、サイトのメッセージのすべてが真実で重要です。私はそれを読むことをお勧めします。


物理ボックスでファイルサーバーを実行します。ファイルの提供はIOであり、仮想化はIOのペナルティです。仮想化は、個別のオペレーティングシステムインスタンスを「要求」するが、物理ボックス全体の処理能力を必要としないアプリケーションに最適です。完全にIOベースの仮想化であるアプリケーションの場合、あまり意味がありません。

私の サーバー障害バックアップラウンドアップ スプレッドシートを読んで、さまざまなバックアップソリューションを比較する必要があります。 LTO-4と5週間ローテーションのテープはそれほど高価ではありません。 LTO-3、LTO-2、またはVXAなどのローエンドのテープテクノロジーを使用すると、さらに少なくなります。

バックアップについてさらに良い推奨事項が必要な場合は、次のようなことを教えてください。

  • バックアップされるデータの合計量
  • 日々変化するデータの量
  • バックアップのウィンドウはどのくらいですか
  • 保持するバックアップの数
  • 期間ごとにいくつのバックアップを永続的に保持しますか
  • バックアップメディアをオフサイトでローテーションする頻度
  • ローテーションするメディア/週の数

あなたは今、あなたの質問でこれらのことのいくつかを言っていますが、たとえば、毎月のオフサイトコピーを行っていて、2日前に災害が発生した場合、ビジネスにどのような影響があるかを本当に考えたのではないでしょうか。次の毎月のオフサイトコピー。あなたのビジネスの運用担当者と話をし、会社がさまざまな量のデータを失うのに何ドルかかるか(時間/日/週のデータの観点から)尋ねた後、要件を再検討することをお勧めします。

(私の「サーバー障害バックアップラウンドアップ」ドキュメントで行われた仮定の詳細については、次のURLを参照してください。 2009年頃の推奨バックアップメディア?

1
Evan Anderson

I/Oが非常に重い可能性があるため、ファイルサーバーを物理ボックスで実行することをお勧めします。また、すべてのVMの電源を切らずに、デッドドライブをホットスワップできると便利です。ただし、これは特定の設定によって異なります。

バックアップスケジュールは妥当なように聞こえますが、どれだけ失う余裕があるかによって異なります。ほとんどのバックアップ(毎月のバックアップを除く)はオンサイトにあるようです。つまり、建物が全焼したり、侵入したりすると、最大で1か月間失われます。

外付けドライブを家に持ち帰る場合は、バックアップの期限が切れる直前まで家に置いておく必要があります。そうしないと、実際にはオフサイトバックアップではありません。あなたがそれについて訓練されているならば、あなたはせいぜい一週間を失うでしょう。 3台の外付けハードディスクのセットをローテーションすることをお勧めします。そうすれば、常に最も古いものをオンサイトに、最新のものをオフサイトに置くことができます。

バックアップを定期的にテストして文書化することを忘れないでください。各バックアップシステムが正しく復元できるという安心感が必要です。同僚の1人がデータを復元できるように、ドキュメントが必要になります。サーバー全体を再構築する方法に関するドキュメントも必要です。 1つが失敗した場合、すべての詳細を覚えるには頭がいっぱいになります。

オフトピック:たまたま、私は私たちの小さな会社のために同様のインフラストラクチャを調べています。同様の経験レベルですが、すでにバックアップが用意されています。私たちの現在のデザインをあなたと共有し、あなたの視点を判断するのではなく、あなたに別の視点を与えるために:
3台のサーバーを計画しています。2台の仮想化ホストと1台のストレージサーバーです。ストレージサーバーはおそらく実行されます Openfiler 。それは(おそらくデュアル)ギガビットイーサネットを介して2つのホストに接続され、両方とも優れたCPUと十分なメモリを備えていますが、ストレージはほとんどありません(おそらく小さなSSDだけです)。これらのホストは、Citrix Xenserver (またはVMWare ESXi )を bare-metal で実行します。これは、内部で仮想化ソフトウェアを実行するよりもはるかに効率的だからです。基本的にあまり機能していない別のオペレーティングシステム(たとえば、VMWareServerとVMWareESXiのパフォーマンスの違いを参照してください)。 Xenserverはエンタープライズ機能を無料で提供するため、最も興味深いようですが、ESXiは、基本以上のものが必要な場合は高価になる可能性があります。 Xenserverホスト自体にはストレージがありませんが、Openfilerサーバーから iSCSI を介して 仮想ハードディスク としてブロックレベルのストレージを使用します。 Openfilerは、スナップショット、RAIDなどを実行できます。 Xenserverは、あるサーバーから別のサーバーへの仮想マシンのライブマイグレーションを実行できるため、ゲストVMをシャットダウンせずに1つのサーバーでメンテナンスを実行できます。 VLANをサポートするギガビットスイッチを入手して、ストレージトラフィックをVMトラフィックから分離できるようにします。停電が発生した場合に制御されたシャットダウンを可能にするUPSがいくつかあり、ほぼすべて完了です。ソフトウェアは(驚くほど)無料であるため、コストの大部分はハードウェアにかかります。

この回答が少し長くなって申し訳ありませんが、別の視点があなたにとって価値があることを願っています。

0
Martijn Heemels

Nickへの回答-この方法論は、ワークステーション用の有名ブランドの構築済みシステムを購入する、低コストの中小企業向けであることに注意してください。これは、利用可能な余分な無駄なリソースを利用するシナリオです。利用可能なすべてのリソースを使用します。ユーザーがその日に出発すると、自動ビルドとテストのためにワークステーションがクラスターに再起動されます。私が提案したバックアップ方法は、冗長コピーのために複数のマシンを使用して、各ワークステーションの余分なスペースを利用する方法です。

...ジョー、ライブシステムとはどういう意味ですか?本番サーバー?

はい。 RAIDは、時間の損失を減らすためのものです。したがって、24時間年中無休で実行されているシステムで使用する必要があります。バックアップデータ転送中にのみ実行する必要があるバックアップシステムや、日中にのみオンにする必要があるワークステーションには、はるかに価値がありません。

...したがって、計画を説明するオプションは次のとおりです。各ワークステーションでの公開データ(暗号化)のジャーナリング。

はい。パブリック共有またはクロスワークステーションである可能性があります。別のメディアへのバックアップ転送の間のRAIDシステムでの変更を1時間ごとにジャーナル/スナップショットします。これは通常、1日2回、正午と夜間です。 (本番システムでは、ディスク容量の最大80%まで、できるだけ多くのジャーナルバックアップを保持します。このパフォーマンスが低下すると、パフォーマンスが低下する可能性があります。)このようにして、ユーザーは/ usernameに移動することで、システム管理者に相談することなく、上書きまたは削除されたファイルを簡単に回復できます。レイドプロダクションシステムの/ date/timeフォルダーで、標準のdiffツールを使用し、その日の利用可能なすべてのスナップショットにアクセスできます。

暗号化は、ワークステーションが盗まれた場合や「詮索好きな目」から保護するためのものです。私たちには優れた開発者がいるので、解読しようとしないでください。彼らは他の多くの方法でビジネスに損害を与える可能性があり、信頼が必要です。

...これらのスナップショットは、毎日5つの外部ディスクを備えたシステムに送信されますか、それとも5つのディスクの1つで毎日オフサイトに移動しますか?

旅行データは常にテープ上にあります。テープは衝撃に耐えます。ディスクはシークが高速であるため、「ジャーナル」バックアップとしてディスクを使用することをお勧めします。テープは、通常、ジャーナル/スナップショットのない完全バックアップまたは増分バックアップです。ほとんどのデータ復旧は、ユーザーベースのために日中に行われます。 「昼食前のファイルが必要です。」 「間違ったファイルを削除しました。」通常、前日からの復元の粒度は、1日に1つのバージョンで十分です。さらにジャーナリングが必要な場合は、バックアップを調整するか、リビジョン管理システムを実装してリビジョンツリーをバックアップします。

5つのディスクは、テープのみのシステムに対する相対的なコストを示すための任意の数です。同じデータのコピーを持つ5つの個別のディスクは、中小企業のRAIDシステムよりもはるかに高い冗長性を備えています。ワークステーションに十分なスペースがある場合は、専用のバックアップディスクが1つあれば十分です。 (複数のコピーがワークステーションとテープ上にある場合)

設定された時点で、データは本番サーバーのジャーナルバックアップパーティションから転送され、外部ドライブが接続されたバックアップシステムに移動され、1つは内部ディスク、もう1つは外部ディスクとテープに2〜5個のコピーが作成されます。ワークステーションはバックアップシステムにバックアップされ、各ワークステーションをシャットダウンする前に、共有本番システムのバックアップのコピーを受け取ります。バックアップされたデータの物理的なコピーが3つ未満になることはありません。 3コピー、5コピーなどは冗長性の質問であり、ビジネスごとおよびデータの種類ごとにモデル化する必要があります。請求書の5つのコピー、契約の7つのコピー、標準のグラフィックの2つのコピー、および現在のテストビルド実行可能ファイルの1つのコピーなどが必要になる場合があります。

...また、各ワークステーションのスナップショットは同じですか?またはそれらはすべて完全な公開データを要約しますか?

どちらか。利用可能なスペースとニーズによって異なります。購入したシステムには、平均的なユーザーが必要とするよりもはるかに大きなディスクが常に付属しています(開発者は余分なスペースを使用できますが、受付担当者は500GB以上のディスクを必要としません)

... linksysbycisco.com/US/en/のような外部ストレージハブについてどう思いますか?

わからない。別の用途に使用できるマシン、今日のバックアップサーバー、明日の誰かのワークステーション、迅速なフェイルオーバーのためのメジャーアップグレード中に仮想のコピーをオフロードするなどをお勧めします。これが外部ディスクの理由の1つであり、すべてのワークステーションを同じように保つためです。できるだけ。したがって、「バックアップサーバー」には、すべてのワークステーションと同じ500GB以上のディスクがあります。これは同じ物理マシンであり、セットで購入されるため、時間の経過とともに、取引に基づいてCPU、メモリ、およびディスクに違いが生じます。マシンはパフォーマンスのニーズに基づいて割り当てられ、メモリを増やすために新しいマシンを交換すると、完全に実行されているマシンにメモリチップをインストールするよりも全体的なsysadmin時間が短くなります。 CPUとビデオ(AMD64、Nvidia)を維持すれば、比較的一貫性のあるマシンスワップは簡単です。

本番サーバーは、最大のパフォーマンスを得るために、1つは10k rpm scsiを実行し、もう1つは7200rpmscsiドライブを実行する2つのRAIDカードを使用します。バックアップに使用される60ドルのSATAテラバイトドライブは、数千ドル相当のscsiドライブ、RAIDコントローラー、ホットスワップラックケースなどを保持します。開発サーバーは通常、SATA RAIDで十分であり、スペースは大きくなりますが、パフォーマンスは低下します。同時ユーザーが少ないため、通常、パフォーマンスの違いはごくわずかです。

簡単な言葉で -

  1. 本番システム-RAID「プライマリデータパーティション」上のアクティブな共有データとOS
  2. 本番システム-RAID「バックアップデータパーティション」での最後のバックアップ以降、1時間ごとにジャーナル化されたスナップショット
  3. ワークステーションシステム-非RAID「プライマリデータパーティション」上のアクティブデータとOS
  4. ワークステーションシステム-RAID以外の「バックアップデータパーティション」のバックアップデータ

500GB以上のドライブで購入され、マルチブートウィンドウ/ linux/bsd/opensolarisパーティションに最大40GBを使用する平均的なワークステーション。残りは、相互のワークステーションOS、本番サーバーのOSバックアップ、本番サーバーのジャーナルデータバックアップ、および/または本番サーバーの増分データバックアップのバックアップコピーを含むバックアップパーティションです。

建物内で2台のマシンが故障した場合、復旧には数分かかります。各OSのサイトには少なくとも3つの物理コピーがあり、通常、本番サーバーからの1〜2週間の増分バックアップと最後の完全バックアップの少なくとも2つのコピーを保持するのに十分な未使用のワークステーションと外部ドライブスペースがあります。

RAIDシステム、テープ、および2つのワークステーションを失う可能性があり、データを失うことなく、数分以内に稼働することができます。 (修復されるまでレイドはありませんが)しかし、データには「即座に」アクセスできます。これにより、最悪のビジネス時間に常に発生するように思われる障害発生時の時間を節約できました。重要な営業会議/デモの直前に、電源は必ず故障します。 RAIDシステムは、金曜日の夜には決して朝に失敗するように見えるので、それらを修正して月曜日の朝までにバックアップすることができます。

バックアッププロセスを説明するドキュメントは会社の所有物です。ダイアグラムとユースケースを使用して、パブリックビューイング用に書き直してみます。私はこの一般的な方法論を長年使用してきましたが、標準のテープのみのシステムに障害が発生した場合に時間とデータを節約できました。 DLT、LTOなどを使用するIBM、Compaq、HP、およびDellシステムで障害が発生しました。一般的な障害は、バックアップ中のエラーではありませんが、データを復元しようとすると破損します。常にテスト復元。これが、毎日簡単にテストできるオンラインジャーナルバックアップを使用する理由の1つです。ユーザーがそれに慣れているので、誰かがジャーナルバックアップを使用せずに1週間以上行ったことはなく、テープを使用することもほとんどありません。テープは建物が全焼した場合に備えています。

0
joe