web-dev-qa-db-ja.com

すべてのVMで断続的な100%CPU

私たちは小さなお店で、メインサーバーとして32GB RAM)を搭載したDell T420(デュアルCPU、1つだけ存在、6コア)を実行しています。VMは5つしかなく、そのうちの1つはWSE 2012DC。

ときどき、信頼できるパターンを確立できなかった速度で、すべてのVMが同時に100%CPUに急上昇します。ホストは4-5%で静かなままです。ホストのウォームブートは救済を提供しませんが、コールドブートは、問題が再発するまで、少なくとも物事を箱に戻します。

時々、1週間以上の穏やかな海をそこから得ることができます。たまに1日だけ。信頼性の低いパターンは、長時間のアイドル期間中のある時点、つまり一晩で開始することのようです。サーバーの温度ログを調べたところ、最初は過熱の疑いがありましたが、最近の事件をさらに調査した結果、その原因は台無しになりました。

また、Dellフォーラムで同様の問題の説明が見つかり、最新のDellアップデートをインストールすることで解決したと主張しています。私たちは最近、まさにそれを行うプロジェクトに従事しました(余談ですが、700GBまでのVHDを安全にそのマシンから取り出して、そのマシンに戻すのはかなりの冒険でした)が、まったく残念ながらそれは役に立ちませんでした。

私たちは絶対に困惑しています。 Microsoftのサポートもそうです(または、少なくとも第1層のサポートは、そのように振る舞わないように努めていますが)。 SystemInfoの出力の下に含めています。

どこから探し始めるか知っている人はいますか?

ありがとう

===================================

ホスト名:SERVER1 
 OS名:Microsoft Hyper-V Server 2012 R2 
 OSバージョン:6.3.9600該当なしビルド9600 
 OSメーカー:Microsoft Corporation 
 OS構成:スタンドアロンサーバー
 OSビルドタイプ:マルチプロセッサフ​​リー
登録所有者:Windowsユーザー
登録組織:
製品ID:06401-029 -0000043-76293 
元のインストール日:2014年4月3日、午後4時7分15秒
システムの起動時間:2014年5月4日、午後1時56分47秒
システムメーカー:Dell Inc。
システムモデル:PowerEdge T420 
システムタイプ:x64ベースのPC 
プロセッサ:1プロセッサがインストールされています。
 [01]:Intel64ファミリ6モデル45ステッピング7 GenuineIntel〜2200 Mhz 
 [Intel(R)Xeon(R)CPU E5-2430 0 @ 2.20 GHz](手動で追加)
 BIOSバージョン: Dell Inc. 2.1.2、2014年1月20日
 Windowsディレクトリ:C:\ Windows 
システムディレクトリ:C:\ Windows\system32 
ブートデバイス:\ Device\HarddiskVolume1 
システムロケール:en-us;英語(米国)
入力ロケール:en-us;英語(米国)
タイムゾーン:(UTC-09:00)アラスカ
合計物理メモリ:32,723 MB 
使用可能な物理メモリ:12,716 MB 
仮想メモリ:最大サイズ:37,587 MB 
仮想メモリ:使用可能:17,129 MB 
仮想メモリ:使用中:20,458 MB 
ページファイルの場所:C:\ pagefile.sys 
ドメイン:OIT 
ログオンサーバー:\\ SERVER1 
 Hotfix(s):31 Hotfix(s)Installed。
 [01]:KB2843630 
 [02]:KB2862152 
 [03]:KB2868626 
 [ 04]:KB2876331 
 [05]:KB2883200 
 [06]:KB2884846 
 [07]:KB2887595 
 [08]:KB2892074 
 [09]:KB2893294 
 [10]:KB2894179 
 [11]:KB2898514 
 [12]:KB2898871 
 [13]:KB2901101 
 [14]:KB2901128 
 [15]:KB2903939 
 [16]:KB2904266 
 [17]:KB2908174 
 [18]:KB2909210 
 [19]:KB2911106 
 [20]:KB2913760 
 [21]:KB2916036 
 [22]:KB2917929 
 [23]:KB2919394 
 [24]:KB2919442 
[25]:KB2922229 
 [26]:KB2923300 
 [27]:KB2923768 
 [28]:KB2928193 
 [29]:KB2928680 
 [30]:KB2930275 
 [31]:KB2939087 
ネットワークカード:3つのNICがインストールされています。
 [01]:BroadcomNetXtremeギガビットイーサネット
接続名:NIC1 
 DHCP有効:いいえ
 IPアドレス
 [02]:BroadcomNetXtremeギガビットイーサネット
接続名:NIC2 
 DHCP有効:はい
 DHCPサーバー:192.168.1.12 
 IPアドレス
 [01]:192.168.1.135 
 [02]:fe80 :: 915b:8de0:712e:29f1 
 [03]:Hyper-V仮想イーサネットアダプター
接続名:vEthernet (外部NIC 1_Internal)
 DHCP有効:いいえ
 IPアドレス
 [01]:192.168.1.11 
 [02]:fe80 :: 2d35:f582:4958:9eb2 
 Hyper-V要件:ハイパーバイザーが検出されました。 Hyper-Vに必要な機能は表示されません。
 

==編集======================

この問題の解決策を見つけました。問題が発生しないように、1年以上待ちました。

モデレーター:回答を投稿できるように、質問の再開をリクエストしたいと思います。

6
InteXX

解決策が有効であることを証明するために1年以上待った後、私はついにこの回答を投稿することができます。

デルのデフォルトのBIOS設定では、C-Stateが有効になっています。これにより、アイドル時にコンピュータが低電力モードになります。これにより、VMはハイパーバイザーホスト(VMWare、Citrixを含む)で100%のCPU使用率にスパイラルします。

解決策は、BIOSのシステムプロファイル設定を、パフォーマンス/ワット[OS]またはパフォーマンス/ワット[DAPC](後者がデフォルト)ではなく、パフォーマンスに設定することです。

関連するデルのドキュメント、pp3:

http://en.community.Dell.com/techcenter/extras/m/white_papers/20161975/download

そして、この問題に精通している数少ないデルのサポートエンジニアからのこの返信:

短いバージョンは次のとおりです。C-Statesは、アイドリング時に追加のプロセッサコアを無効にします。コアに関連付けられているVM(これはOS制御であり、構成可能ではないと思います)の場合、目に存在しなくなったリソースを使用してアクションを実行しようとしているため、VMがロックされる可能性があります。

一般的に、C-Stateは通常、バックアップサーバー、セカンダリロールサーバー(バックアップDNS、dhcp、ドメインコントローラーなど)などのアイテムで使用されるため、バックアップサーバーはオンのままですが、エネルギーを節約するために低電力モードになります。

追加のドキュメントはここにあります:

http://en.wikipedia.org/wiki/Advanced_Configuration_and_Power_Interface

簡単に言うと、ハイパーバイザーホストでは、Dellサーバーの電源アイドリングを常にオフにする(パフォーマンスに設定する)必要があります。

この解決策を見つけるのを手伝ってくれたKitsapBankのEddySimonsに感謝します。

8
InteXX

問題が何であるかは不明です。あなたはすでにそれを知っています。原因をお伝えする機会はありません。

ただし、いくつかのテストを実行できます。

  • ビルドVM 1

    • これに対してCPUを集中的に使用するタスクを実行するVM常に
      (1秒あたり数百万の複雑な数学的計算を実行します)
  • ビルドVM 2

    • RAMこれに対して集中的なタスクを実行するVM常に
      (メモリ内に巨大な配列を作成し、削除し、繰り返します)
  • ビルドVM 3

    • これに対してDISK集中タスクを実行するVM常に
      (ファイルとの間で数百万行の読み取り/書き込み/削除)
  • ビルドVM 4

    • これに対してNETWORK集中タスクを実行するVM常に
      (ファイルをSMB共有)との間でコピーします)

問題が再び発生するまで待ち、これらの各サーバーのパフォーマンスデータを観察します。
最も影響を受けたのはどれですか?
まったく影響を受けなかったものはありますか?

私の推測では、ディスクがサックし、CPUがIO操作が完了するのを待ってから続行します。これにより、一部のアプリケーションがCPUをフラット化する可能性があります。

1
Vasili Syrakis

これを見つけてよかった。 Hyper-vを実行している2012R2サーバーがあります。 AMD、6コアCPU。それは1年以上の間完全に動いていました。突然、RDPでもHyper-V接続でも接続できないVMが表示されるようになりました。唯一のオプションは、VMをオフにすることでした。シャットダウンしても応答がありませんでした。だから...壁から仮想プラグを引き出します。オンにする。

症状は、個々のマシンが割り当てられたCPUの100%を使用しているように見えることでした(例:1コアVMは16%に固定されていました)。

問題は散発的でした。明らかな韻や理由はありません。

ついに、これは、そのmoboで32GBから64GBにアップグレードしようとして失敗したのと一致していることに気づきました。その問題は、16GBメモリの1、2、または3スティックを16、32、または48GBで動作させることができたが、64GBでは4スティックを動作させることができなかったことでした。 BIOS設定などをいじくり回すことがたくさんあります。その面では喜びはありません。そのとき、VMで動的メモリを有効にする素晴らしい機能を発見しました。結局、64ギガなしで生き残ることができたのです!!

いじくり回してCPUの電源管理をオンにしたところ、この問題が発生したと思います。

BIOSでAPMをオフにしました。これで修正されたと60%確信できるまでには、数日かかります。勝利を宣言するために数週間。しかし、このFEELSは問題の正当な理由のようです。

今から24時間経ちましたが、これまでのところ順調です。

成功を祈っている。

情報のおかげで!!

0
AS400Jockey