GPU Nvidiaモジュールを ganglia ( /ganglia/gmond_python_modules/gpu/nvidia/
)に追加しようとしています。
ganglia_web.patch
パッチを適用する必要がありますか?
パッチを適用しないと、 http:// localhost/ganglia / にアクセスしたときにGPUメトリックが表示されません。
パッチを適用しようとすると、次の問題が発生します。
ubuntu@server:/usr/share/ganglia-webfrontend$ Sudo patch -p0 < /home/ubuntu/gmond_python_modules/gpu/nvidia/ganglia_web.patch
Sudo: unable to resolve Host server
patching file Host_view.php
Hunk #1 FAILED at 17.
Hunk #2 FAILED at 37.
Hunk #3 FAILED at 144.
Hunk #4 FAILED at 153.
Hunk #5 FAILED at 169.
5 out of 5 hunks FAILED -- saving rejects to file Host_view.php.rej
patching file templates/default/Host_view.tpl
Hunk #1 FAILED at 80.
Hunk #2 FAILED at 89.
2 out of 2 hunks FAILED -- saving rejects to file templates/default/Host_view.tpl.rej
ubuntu@server:/usr/share/ganglia-webfrontend$ cd /usr/share/ganglia-webfrontend
readme は、パッチファイルをどうするかについては言及していません。
WebインターフェイスにはGPUメトリックが含まれていますが、すべての画像は404です。
Grid > [name] > [gpu node]
に移動すると、GPUオプションが表示されません。
Gangliaサーバー(つまり、gmetad
が実行されているサーバー)で、次のコマンドを実行しました。
git clone https://github.com/ganglia/gmond_python_modules.git
Sudo cp gmond_python_modules/gpu/nvidia/graph.d/* /usr/share/ganglia-webfrontend/graph.d/
Sudo /etc/init.d/gmetad restart
Gangliaクライアント(つまり、gmond
が実行されているサーバーとGPUが配置されているサーバー)で、次のコマンドを実行しました。
git clone https://github.com/ganglia/gmond_python_modules.git
Sudo pip install nvidia-ml-py
Sudo cp gmond_python_modules/gpu/nvidia/python_modules/nvidia.py /usr/lib/ganglia/nvidia.py
Sudo cp gmond_python_modules/gpu/nvidia/conf.d/nvidia.pyconf /etc/ganglia/conf.d
Sudo /etc/init.d/ganglia-monitor restart
私が使う:
Ubuntu xenialでは、modpython.conf
を追加して神経節のmodpython.so
にnvidia.py
モジュールをロードするように指示する必要があることもわかりました。
Sudo pip install nvidia-ml-py
ソースから:
cp conf.d/nvidia.pyconf /etc/ganglia/conf.d/
cp python_module/nvidia.py /usr/lib/ganglia/python_modules/
/etc/ganglia/conf.d/modpython.conf
をお持ちでない場合
cat <<EOF | Sudo tee /etc/ganglia/conf.d/modpython.conf
modules {
module {
name = "python_module"
path = "/usr/lib/ganglia/modpython.so"
params = "/usr/lib/ganglia/python_modules/"
}
}
include ('/etc/ganglia/conf.d/*.pyconf')
EOF
自分でこれに出くわした後、昨日も不思議なことに。モジュールの開発者に聞いてみました。彼はそれが「うまくいく」べきだと言った...それで、少し遊んだ後、私は以下がうまくいくのを見つけた:
ウェブホスト上:
GPUの場合Node(注:これはRHEL/SL/Centパッケージの名前と場所です):
ソースから:
cp conf.d/nvidia.pyconf /etc/ganglia/conf.d/
cp python_module/nvidia.py /usr/lib64/ganglia/
Gmondを再起動します
今すぐWebツリーにパッチを適用する必要はありません。したがって、Webインターフェイスで次の場所に移動します。
Grid > [name] > [gpu node]
リストに「GPUメトリック」が含まれているはずです。崩壊して見たいかもしれません。ある場合ない何らかの理由で、あなたはに行くことができます グリッド> [名前] ページをクリックし、[メトリック]ドロップダウンの下部で、gpu_ *メトリックの1つを選択します。それmay一度やったら何かを蹴る。ノードの1つに「gpumetrics」セクションを表示させるためにそれを行う必要がありました...しかし、別のノードは表示しませんでした。
YMMV。
-J