2台の物理サーバーと2台の仮想Citrixサーバーで構成されるCitrixPS4.0ファームがあります。いずれかの時点で、CPU使用率が100%に達するため、最終的にパフォーマンスが低下します。いずれかのVMwareサーバーでこれが発生すると、仮想インフラストラクチャクライアントでCPU使用率の急上昇が見られます。
これは、任意の数のユーザーでいつでも発生する可能性があるため、ユーザー数に関連する負荷の問題ではありません。
ユーザーは、アプリケーションではなく共有デスクトップを実行しています。デスクトップにインストールされるアプリケーションは、標準のOfficeアプリケーション(Word、Excel、Outlook)であり、Bluecoatプロキシといくつかの業界固有のアプリケーションを介したInternetExplorerへのアクセスが制限されています。
問題の原因をトラブルシューティングおよび診断するために使用できるツールは何ですか?サーバーが100%CPUに達すると、ログオンして、どのプロセスがすべてのリソースを消費しているかを確認することはできません。唯一の手段は、マシンをハードリセットすることです。すべてのサーバーは、スケジュールに従って毎朝午前4時に再起動します。
注:デフォルトの構成オプションとログアクティビティを使用して、すべてのCitrixサーバーにThreadMasterを既にインストールしています。ログは問題の原因を明らかにしません。
[〜#〜]編集[〜#〜]
Windows 2003 SP1は4月にサポートが終了したため、OSにセキュリティパッチが適用されなくなりました。できるだけ早くSP2にアップグレードする必要があります。
SP2にはランダムなバグ修正もたくさんあります-あなたの問題はなくなる可能性があります。
OSのパッチレベルが古い場合は、一部のドライバ(具体的にはプリントドライバ)もボックスで古くなっている可能性があります。一般に、ドライバーはシステムの不安定性の大きな原因であるため、すべてのドライバーが署名され、最新であることを確認してみます。危険なプリントドライバがあると、仮想ボックスと物理ボックスの両方に影響を与える理由が説明され、負荷に関係なくランダムに発生するように見えます。
ああ、FYI Citrix 4は今月末の6月9日にEOM(メンテナンスの終了、バグ修正なし)になり、12月9日の終わりにEOL(サポート終了、セキュリティパッチやその他のパッチはなくなります)になります。お楽しみくださいアップグレードサイクル!
スクリプトを1分ごとに実行するようにスケジュールして、プロセスリストをファイルに追加してみてください。
pslist >> whatever.txt
このような何かは、少なくともあなたに何が起こっているかについての手がかりを与えるかもしれません。
組み込みのパフォーマンスログとアラートツールは、何が起こっているかに関するデータを取得するための優れたツールです。これらのログを生成するには、ある程度のディスクスペースを使用する必要がありますが、問題が発生するまで古いログファイルを削除し続けると、ディスクが不足しても問題は発生しません。
各サーバーコンピューターでカウンターログを起動し、ProcessオブジェクトとProcessorオブジェクトをディスクに記録します(おそらくMemoryオブジェクトも取得します)。
開始/実行/ PERFMON
パフォーマンスログとアラートノードを展開し、カウンターログノードを強調表示します。
アクションおよび新しいログ設定をクリックします。好きなようにログに名前を付けます。
ログプロパティウィンドウのオブジェクトの追加...ボタンをクリックし、オブジェクトをログに追加します。
間隔を設定します。私はおそらく60秒以上の間隔を選択します。これは段階的な劣化であるため、高解像度はおそらく必要ありません。
ログファイルタブで、構成ボタンを使用して、ログファイルの場所とベースファイル名を選択します。たとえば、5MBから10MBの最大ログサイズを選択します。これにより多くの小さなファイルが生成されますが、ファイルを保存しているパスを監視し、問題が発生する前に積み重なっている古いファイルを削除することができます。
結果ペインで新しいログインスタンスを右クリックし、[開始]を選択すると、ログを開始できます。ログは、デフォルトでは、ログを停止するか、コンピューターを再起動するまで実行されます。 (起動時にログを開始する方法については、この質問を参照してください: システム起動時に「アラート」を自動的に開始するようにPerfmonを設定する方法 (質問はアラートの開始について説明していますが、同じものを使用できますログを開始するコマンド。)
問題が発生した後、これらのログを手動で分析できます。 Microsoftのログのパフォーマンス分析(PAL)ツール( http://www.codeplex.com/PAL )を試してみることをお勧めします。ツールが生成したレポートに満足しており、非常に使いやすいです。
サーバーにvCPUが1つしかない場合は、サーバーに仮想CPUを追加してみてください。シングルスレッドアプリケーションがすべてのCPUを消費している場合は、サーバーをリセットする代わりに、少なくともCPUを強制終了します。
WS2003 Enterprise Editionにアップグレードし、 Windows System Resource Manager を利用してアプリケーションリソースを含めることを検討しましたか?
インターネット監視ソフトウェアでも同様の問題が発生し、XTE(セッションの信頼性)プロセスによってWinSockライブラリやTCP/IPスタックが破損していることが判明しました。 TCP/IPスタックを修復するには、Citrixサーバーでコマンド「netshwinsockreset」を実行して再起動します。
あなたはPS4で3ロールアップ遅れています。サーバーをロールアップ6にアップグレードすることをお勧めします
どのエディションを実行していて、SA契約を結んでいますか?
サーバーでウイルス対策を実行していますか?
また、PS4用に実行しているホットフィックス/ロールアップとWindows用のSP)を使用していますか?
マシンあたりいくつのCPU /コア?多くのコアで100%に達すると、マルチスレッドアプリケーションがすべてのリソースを消費することになります。
パターンはありますか(X時間ごとまたは毎日2時頃にピークになります)?
イベントログに何か(巨大な印刷など)?
SCOMはありますか?
Citrixボックスで高いCPUにぶつかるという問題は、プリンタードライバーの不良が原因で、スプーラーサービスが完全に機能しなくなったことが原因です。具体的には、HP LaserJetプリンタードライバーが原因でした。これは、昨年12月頃に基盤となるDLLを再実行して、多数のクラッシュを修正するまで悪名高いものでした。リリースノートの変更ログは、興味深い読み物になりました。
とにかく、ワークステーションから「sc\servername stopスプーラー」を試して、それが誤ったサーバー上のプリントスプーラーに接続して強制終了できるかどうかを確認すると、プリンタードライバーが問題になる可能性があります。
ProcessExplorer(無料)は、実行中のプロセス、特にを深く掘り下げるための便利なツールです。通常は非表示になっているsvchost.exeで実行されているもの。 HPプリンタードライバー(長年の問題)が1つのコアで100%実行されている場合がありました。 ProcessExplorerを使用すると、a)起動に使用されたコマンドライン(HPであることが明らかになりました)を見つけ、b)そのタスクだけを強制終了できます。推奨...
余談ですが、AppSenseパフォーマンスマネージャーは、XenAppのCPU負荷のピークを処理するのに非常に適しています。それが高すぎる私見を除いて、それはそれをお勧めします。サーバーの容量に達するたびに、「AppSenseまたは別のサーバー?」に移動します。 1,000ポンドで、それが何をするかに対してただ高すぎるので、私たちは常に後者を使いました。無料のXenServerを実行していて、既存のXenAppサーバーのクローンを1時間で作成できるようになった今、さらに多くのケースがあります。
クライアントの1つは、サーバーのリモート監視/ヘルスステータスであるBigBrotherを使用しています。トライアルで自分で簡単にプレイしましたが、大企業のアリーナにもあるのでそのままにしておきました。