web-dev-qa-db-ja.com

GangliaのGPUNvidiaモジュール:ganglia-webfrontendにパッチを適用する必要がありますか?

GPU Nvidiaモジュールを ganglia/ganglia/gmond_python_modules/gpu/nvidia/ )に追加しようとしています。

ganglia_web.patchパッチを適用する必要がありますか?

パッチを適用しないと、 http:// localhost/ganglia / にアクセスしたときにGPUメトリックが表示されません。

パッチを適用しようとすると、次の問題が発生します。

ubuntu@server:/usr/share/ganglia-webfrontend$ Sudo patch -p0 < /home/ubuntu/gmond_python_modules/gpu/nvidia/ganglia_web.patch
Sudo: unable to resolve Host server
patching file Host_view.php
Hunk #1 FAILED at 17.
Hunk #2 FAILED at 37.
Hunk #3 FAILED at 144.
Hunk #4 FAILED at 153.
Hunk #5 FAILED at 169.
5 out of 5 hunks FAILED -- saving rejects to file Host_view.php.rej
patching file templates/default/Host_view.tpl
Hunk #1 FAILED at 80.
Hunk #2 FAILED at 89.
2 out of 2 hunks FAILED -- saving rejects to file templates/default/Host_view.tpl.rej
ubuntu@server:/usr/share/ganglia-webfrontend$ cd /usr/share/ganglia-webfrontend 

readme は、パッチファイルをどうするかについては言及していません。

WebインターフェイスにはGPUメトリックが含まれていますが、すべての画像は404です。

enter image description here

Grid > [name] > [gpu node]に移動すると、GPUオプションが表示されません。

enter image description here

Gangliaサーバー(つまり、gmetadが実行されているサーバー)で、次のコマンドを実行しました。

git clone https://github.com/ganglia/gmond_python_modules.git
Sudo cp gmond_python_modules/gpu/nvidia/graph.d/*   /usr/share/ganglia-webfrontend/graph.d/
Sudo /etc/init.d/gmetad restart

Gangliaクライアント(つまり、gmondが実行されているサーバーとGPUが配置されているサーバー)で、次のコマンドを実行しました。

git clone https://github.com/ganglia/gmond_python_modules.git
Sudo pip install nvidia-ml-py
Sudo cp gmond_python_modules/gpu/nvidia/python_modules/nvidia.py /usr/lib/ganglia/nvidia.py
Sudo cp gmond_python_modules/gpu/nvidia/conf.d/nvidia.pyconf /etc/ganglia/conf.d
Sudo /etc/init.d/ganglia-monitor restart

私が使う:

  • GangliaWebフロントエンドバージョン3.6.1
  • Ganglia Webバックエンド(gmetad)バージョン3.6.0
  • RRDtoolバージョン1.4.7。
  • Ubuntu 14.04.3 LTSx64サーバー
1

Ubuntu xenialでは、modpython.confを追加して神経節のmodpython.sonvidia.pyモジュールをロードするように指示する必要があることもわかりました。

  1. Pipのインストール(python-pip)
  2. 実行:Sudo pip install nvidia-ml-py
  3. ソースから:

    cp conf.d/nvidia.pyconf /etc/ganglia/conf.d/
    cp python_module/nvidia.py /usr/lib/ganglia/python_modules/
    
  4. /etc/ganglia/conf.d/modpython.confをお持ちでない場合

    cat <<EOF | Sudo tee /etc/ganglia/conf.d/modpython.conf
    modules {
      module {
        name = "python_module"
        path = "/usr/lib/ganglia/modpython.so"
        params = "/usr/lib/ganglia/python_modules/"
      }
    }
    include ('/etc/ganglia/conf.d/*.pyconf')
    EOF
    
2
szym

自分でこれに出くわした後、昨日も不思議なことに。モジュールの開発者に聞いてみました。彼はそれが「うまくいく」べきだと言った...それで、少し遊んだ後、私は以下がうまくいくのを見つけた:

ウェブホスト上:

  1. cp conf.d/nvidia.pyconf /etc/ganglia/conf.d/
  2. cp graph.d/* /usr/share/ganglia-webfrontend/graph.d/
  3. Gmondを再起動します

GPUの場合Node(注:これはRHEL/SL/Centパッケージの名前と場所です):

  1. Pipのインストール(python-pip)
  2. 実行:pip install nvidia-ml-py
  3. ソースから:

    cp conf.d/nvidia.pyconf /etc/ganglia/conf.d/
    cp python_module/nvidia.py /usr/lib64/ganglia/
    
  4. Gmondを再起動します

今すぐWebツリーにパッチを適用する必要はありません。したがって、Webインターフェイスで次の場所に移動します。

Grid > [name] > [gpu node]

リストに「GPUメトリック」が含まれているはずです。崩壊して見たいかもしれません。ある場合ない何らかの理由で、あなたはに行くことができます グリッド> [名前] ページをクリックし、[メトリック]ドロップダウンの下部で、gpu_ *メトリックの1つを選択します。それmay一度やったら何かを蹴る。ノードの1つに「gpumetrics」セクションを表示させるためにそれを行う必要がありました...しかし、別のノードは表示しませんでした。

YMMV。

-J

2
Jason Stover