web-dev-qa-db-ja.com

ESXiホストのネットワーク速度が遅い

私はこの問題に約半年間(時間の余裕があった)対処しており、なんとかそれを解決することができなかったので、ついに辞任し、ここに来てgoogleだけでなく他の人からの助けを求めました(VMwareのサポート)約3年前に実行され、私たちの幹部は、VMwareに延長を注文しないことを選択しました。

問題

私は仮想化やVMのパフォーマンスについては扱っていません。すべてうまくいきます。 VMの新しいバックアップソフトウェアをセットアップする必要があるとき、私は本当に後ろから刺されました。ホスト、ストレージ、バックアップサーバーはすべて10GigEth NICを備え、同じ10Gigスイッチに接続されています。 VMDKをホストとそのiSCSI接続ストレージからバックアップサーバーにコピーする場合、速度は150Mbit/sで安定しています。私が毎晩バックアップしなければならない量は約2-5 TBであり、その速度ではそれは不可能です。 目標は、コピー速度を少なくとも100MB /秒(約14時間で5TB)に上げることです。

トポロジー

  • ネットワークX 192.168.xxx.0/24
  • ネットワークY 10.0.yyy.0/24
  • 物理デバイスとVMのさまざまなVLANを含む企業ネットワーク(これは管理せず、使用するだけです)。
    • ネットワークVLAN A
    • ネットワークVLAN B

クラスタトポロジ

Cluster topology

すべてがCat6ケーブルでスイッチに接続されているため、10ギガのDellスイッチは、本当にクラスターの中心です。 SW2スイッチはそれにデイジーチェーン接続されており、ESXiホストからXネットワークへの冗長接続の接続ポイントとして機能します。これらのスイッチのいずれにも1(default)が構成されている他のVLANはありません。ホストとサーバーはすべてVLAN A(またはB)に接続されており、オフィスからアクセスでき、インターネットや企業ネットワークの他の部分にアクセスできます。クラスターのDatasotresは、Dell(SFP)およびHP(Copper)ストレージであり、すべてiSCSIによって5つのホストすべてに接続されています。すべてのESXiホストとサーバーには、SW3からネットワークYへの銅線のCat5リンクがあり、すべてのBMCと他の管理ポートも接続されています。バックアップサーバーの1つで、VLAN Aネットワークを介してXネットワーク上のインターネットにアクセスを許可するルーティングが有効になっています。 vMotionはネットワークXおよびVLAN Aで有効になっています。ネットワークX上のデバイスからのすべての10Gig NICでジャンボフレームが有効になっており、10Gb速度の全二重が報告されています

テスト

私はかなりの数のバックアップソフトウェアをテストしていましたが、テストリグが100BaseだけだったのでNICそのときネットワークパフォーマンスに問題は見られませんでしたが、ソフトウェアを購入したところ、速度がさらに上がらないことがわかりましたその後、150Mbit/sに調整する必要があることに気付きました。私が試したものは次のとおりです。 各テストの結果速度は、特に指定のない限り150Mbit/sでした。

  1. これは望ましい使用例です。バックアップサーバーはネットワークXを介してホストに接続し、すべてのバックアップを(スナップショットの形式で)ローカルストレージまたはNASストレージにダウンロードします。
  2. ホストの10Gigポートの1つからバックアップサーバーの10Gigポートへの直接リンクを作成し、SCP、WINSCP、SSH、およびバックアップソフトウェアを試して、DellストレージからVMスナップショットをダウンロードしました。
  3. バックアップサーバーの1つにNFSストレージを作成し、そこにテストVMを移行しました(〜500MB/s、20GB、安定)。その後、テスト2の方法をもう一度試しました。
  4. ホストABC(ネットワークVLAN A)をクラスターから切断し、XYZ(ネットワークX)として再接続し、ネットワークVLAN Aへの接続とXへの1Gig接続を削除して、テストを試みました再び3。移行(〜500MB /秒、20GB、安定)。
  5. テスト1、3、4を試す際に、仮想スイッチの設定と帯域幅ポリシーをいじった。
  6. 20個のバックアップジョブを同時に実行してみましたが、それぞれが150Mbit/sで実行されていました。次に、より多くのジョブを開始し、それらすべての速度が約30〜32の同時実行ジョブを低下させ始めたため、少なくとも550MB /秒のスループットが利用可能です。

インフラ

  • 5つの同一のDell PowerEdge R610(デュアルXeon X5660、200 + GB RAM、4x GLAN(Broadcom NetXtreme II BCM5709)、1xデュアル10GLAN(Intel 82599)、内部ストレージなし)
  • 3つのDell PowerVaultエンクロージャ(各10 TB、10000 SAS HDD各600GB)
  • 1つのHP MSA 2040(10 TB、3つのSSD SAS 300GBディスクをキャッシュ、残りは10k SAS HDD)
  • SW1 Dell PowerConnect 8024
  • SW2 Cisco 2960G
  • SW3 Cisco 2950
  • バックアップサーバーDell PowerEdge R530
  • VsphereサーバーSunfire(古い)

問題がどこにあるのかは本当にわかりますが、私の意見ではESXiにあると思います。 VMは、異なるホスト上で相互に500MB /秒に問題なく到達できますが、ホスト自体は到達できません。

私はこれに対するすべての応答に本当に感謝し、すべての曇った詳細を明確にします。

1
LANeo

これはあなたが期待しているアドバイスではないかもしれませんが、それはあなたの問題を解決します^^

解決策は毎週フルバックアップを実行するで、毎日ではありません。

これは、バックアップの実行(および検証:D)を開始したときの最初の実世界のレッスンの1つです。毎日の大規模なバックアップは、1日以内に完了しないだけです。簡単に言えば、ホスト、ネットワーク、ストレージが転送に追いついていないため、1日あたりのTBをバックアップすることは合理的に実現可能ではありません。

標準的な方法は、最大で日次差分と週次完全バックアップです。VmWareには、増分スナップショットを処理する組み込みの方法があり、料金を支払うエディションによって異なります。 ESXiで構成できるものを確認します。

VmWareは、ネットワークを介して同じコンテンツを再コピーしないことについても賢くなります。巨大なvmdkは日々変化することはないと思います。大きな転送の最低限の要件は、rsync/sftpの代わりにscpを使用することです。rsyncは大きなファイルのdiffのみを送信します。

1
user5994461

Veeamバックアップを使用します。ソース、ネットワーク、ターゲットとして、バックアップインフラストラクチャのどこに、どのボトルネックが存在しているかがわかります。ソースはデータの場所であり、ネットワークは明確で、ターゲットはバックアップの保存場所です。同じ問題が発生し、ストレージ速度に問題があり、その後ボトルネックがソースに変わり、バックアッププロキシを追加しました。 MTUが解決しました。

1
hamid