Hyper-V 2012で実行されているDFSRを使用したServer 2012の問題

Question

サーバー2012システムは多数あり、そのすべてがHyper-V 2012サーバーで仮想化されて実行されます。このような2つの仮想インスタンスに問題があり、どちらもファイルサーバーとして使用されているため、クライアントにファイルを提供する要求への応答が時々停止します。サーバーにログオンした後、正常にシャットダウンする試みは失敗します（エラーはなく、シャットダウン要求の確認に失敗します）。

リカバリは、Hyper-Vコンソールからサーバーの電源を入れ直す場合です。

これらの2つのサーバーは、多数のユーザーにサービスを提供せず（1人は6ユーザー以下、もう1人は約20ユーザーにサービスを提供）、同じドメインにありますが、異なる物理ハードウェア（および異なるサイト）にあります。同時にロックすることはありません。どちらもDFSRを使用して、ADSL接続を介してかなり大量のデータ（200GB）を複製します。これは正常に機能しており、これまで使用していた以前の2世代のサーバーOS（Server 2008 R2）でDFSRを使用しています。およびServer 2003-どちらも物理的なインストールでした）。

今日、いずれかのサーバーがクラッシュしたとき、次のようなイベントログのエントリに気付きました。

_Log Name: Application Source: ESENT Date: 27/11/2012 10:25:55 Event ID: 533 Task Category: General Level: Warning Keywords: Classic User: N/A Computer: HAL-FS-01.example.com Description: DFSRs (1500) \.\E:\System Volume Information\DFSR\database_C8CC_101_CC00_EC0E\ dfsr.db: A request to write to the file "\.\E:\System Volume Information\ DFSR\database_C8CC_101_CC00_EC0E\fsr.log" at offset 4423680 (0x0000000000438000) for 4096 (0x00001000) bytes has not completed for 36 second(s). This problem is likely due to faulty hardware. Please contact your hardware vendor for further assistance diagnosing the problem. _

サーバーが再起動したとき、さらに調査するためにイベントログエントリを見つけに行ったところ、イベントログエントリがそこにないことがわかりました（メモリにあったが、サーバーの電源がオフになる前にディスクに書き込むことができなかったと思います）。メッセージに記載されている理由）。イベントログをさらに検索すると、上記のメッセージが見つかりました。

これらの仮想サーバーは両方とも、動的に拡張するのではなく、E：ボリュームが完全に割り当てられており、他の仮想サーバー（サーバー2012、サーバー2008 R2、Ubuntu 12.04 x64など）には他の問題はありません。ホストシステムにIO、メモリ、CPUの枯渇の兆候はありません。

影響を受ける仮想サーバーのパフォーマンスカウンターを使用して、メモリ使用量（非ページプールの使用量を含む）、CPUとネットワークの使用率を監視しましたが、問題が発生したときに問題の兆候は見られません。

私の構成はそれほど珍しいものではないと思っていたので、他の誰かがこれを見て、問題を解決することができたかどうか疑問に思っていますか？

ホストの仕様は次のとおりです。

_hal-vm-01_合計5台の仮想サーバー（影響を受けるファイルサーバー、DC +その他のゲスト）を実行しているのは、Dell Poweredge R710、16GB、6 x 300GB SAS 15K RAID 10 Perc H700

_hey-vm-01_ 2つの仮想サーバーを実行するシステム（影響を受けるファイルサーバーとDC）Dell Poweredge T620、16GB、2 x 3TB SATA RAID 1、Perc H310

さらに、5つのゲストを実行する仮想サーバー_hal-vm-02_があります。これは、この問題の影響を受けず、_hal-vm-01_よりも仕様は低くなりますが、ほぼ同じロード（Exchange、DC、SQL +その他のゲスト）です。このホストと「hal-vm-01」の間でシェアードナッシングフェイルオーバーを構成できるように、メモリが増えています。

影響を受ける2つの仮想サーバーで実行されているAVソフトウェア（MS SCEP）があり、作成時にのみスキャンし、dfsrs.exeプロセスによって作成されたファイルをスキャンしないように構成されています。 VMホスト自体で実行されているAVソフトウェアはありません。

ホスト_hal-vm-01_でWindows Server 2012バックアップを使用してすべてのVMをバックアップしています。これは数時間で実行されます。影響を受ける他のサーバー_hey-vm-01_は、本社のデータのオフサイトDFSRコピーであるため、バックアップされません。影響を受ける仮想ゲスト_hal-fs-01_で別のバックアップジョブが実行されます。これもWindows Serverバックアップを使用して、DFS複製共有に保存されているデータのスナップショットを取得します。どちらのバックアップジョブも営業時間外に実行されます。

三ヶ月後...

マイクロソフトとのサポートチケットを3か月以上公開しており、パフォーマンスカウンターログ、メモリダンプ、イベントログがマイクロソフトに送信されています。彼らが行った分析は、hal-fs-01の仮想ドライブの1つ（問題のある仮想サーバー）に問題があることを示しています。問題の仮想ドライブはサーバーの_E:\_ドライブでしたが、これにはたまたますべてのDFSRグループと共有があります。最近、すべてのデータを_E:\_ドライブからサーバーに追加した多くの小さな仮想ディスクに移動し、もちろんすべての共有とDFSRグループを移動して、Windows展開サービスファイルだけを_E:\_に残しましたドライブ。それにもかかわらず、_E:\_ドライブへの書き込みが失敗するという問題がまだありました。

先週、WDSファイルを新しい仮想ディスクに移動し、WDSサービスを無効にしました。また、ディスクに異常が発生した場合に備えて、_E:\_仮想ディスクも削除しました。それ以来、まだ問題は発生していませんが、この編集時（2013年3月20日）の最長の稼働時間は以前は約2週間だったため、問題が解決したかどうかを判断するのは時期尚早です。、現在の構成を開始してから1週間しか経っていません。問題が翌週までに表面化しない場合は、WDSが原因である可能性があるため、WDSを再度有効にします。

私はこの質問を更新し続けます（または、問題を解決できた場合は回答を提供します）。

Server 2008 R2に戻りました...

問題は進捗状況で更新されていませんが、サーバー2008 R2にロールバックすることになりました。すべてが正常に機能します。私はまだこの問題が発生している誰かについて聞いて、なんとか修正を見つけることに興味があります。

RyPaul · Answer

わかりました。これで問題が解決するかどうかはわかりませんが、PERC H310コントローラにドライブを接続し、仮想環境でファイルサーバーを実行してデータドライブを同じH310に接続されたrawディスク。 I/Oが高い期間中のランダムな時間に、仮想マシンはドライブにアクセスできず、クラッシュすると不平を言うでしょう。ドライブをオンボードのIntelコントローラーに接続することになり、それ以来問題はありませんでした。個人的には、ローエンドのPercカードには、I/Oの影響を受けやすい操作で問題を引き起こす可能性のある癖があると思います。

TomTom · Answer

あなたは間違った場所を見ていると思います。ホストを見てください。これは、ディスクサブシステムのホストの問題のように臭いがします。