Mellanoxカードをケーブルで相互に接続した2台の同じコンピュータを使用しています。スイッチなし。 opensmを使用する。
私はping_pongテスト、ibpingなどを含むいくつかのテストを実行しました。それらはすべて動作しているようです。ただし、このテストを実行すると、エラーのように見えますが、理解できません。
私はファイアウォールに言いました
Sudo iptables -I INPUT -p tcp -s 192.168.0.0/24 -j ACCEPT -m comment --comment "Allow Infiniband"
Sudo iptables -I INPUT -p udp -s 192.168.0.0/24 -j ACCEPT -m comment --comment "Allow Infiniband"
解読の助けと可能な解決策は素晴らしいでしょう。
[idf@node2 Downloads]$ Sudo ib_write_bw
************************************
* Waiting for client to connect... *
************************************
---------------------------------------------------------------------------------------
RDMA_Write BW Test
Dual-port : OFF Device : mlx4_0
Number of qps : 1 Transport type : IB
Connection type : RC Using SRQ : OFF
CQ Moderation : 100
Mtu : 4096[B]
Link type : IB
Max inline data : 0[B]
rdma_cm QPs : OFF
Data ex. method : Ethernet
---------------------------------------------------------------------------------------
local address: LID 0x01 QPN 0x004a PSN 0xa79f2e RKey 0x50042a04 VAddr 0x007f1682804000
remote address: LID 0x02 QPN 0x004a PSN 0x5ef914 RKey 0x40042502 VAddr 0x007f94f9ce9000
---------------------------------------------------------------------------------------
#bytes #iterations BW peak[MB/sec] BW average[MB/sec] MsgRate[Mpps]
ethernet_read_keys: Couldn't read remote address
Unable to read to socket/rdam_cm
Failed to exchange data between server and clients
[idf@node2 Downloads]$
[idf@node1 python]$ Sudo ib_write_bw 192.168.0.1
---------------------------------------------------------------------------------------
RDMA_Write BW Test
Dual-port : OFF Device : mlx4_0
Number of qps : 1 Transport type : IB
Connection type : RC Using SRQ : OFF
TX depth : 128
CQ Moderation : 100
Mtu : 4096[B]
Link type : IB
Max inline data : 0[B]
rdma_cm QPs : OFF
Data ex. method : Ethernet
---------------------------------------------------------------------------------------
local address: LID 0x02 QPN 0x004a PSN 0x5ef914 RKey 0x40042502 VAddr 0x007f94f9ce9000
remote address: LID 0x01 QPN 0x004a PSN 0xa79f2e RKey 0x50042a04 VAddr 0x007f1682804000
---------------------------------------------------------------------------------------
#bytes #iterations BW peak[MB/sec] BW average[MB/sec] MsgRate[Mpps]
Conflicting CPU frequency values detected: 1600.000000 != 1733.000000
Can't produce a report
[idf@node1 python]$
これは以前に見られたことがわかります。敷物の下にあるように見えるので、私は答えが好きではありませんが、それでも答えは次のとおりです。
http://linuxtoolkit.blogspot.com/2013/01/errors-when-running-doing-ib-testing.html
これは通常、必要なモジュールがすべてカーネルにロードされていないことが原因です。デフォルトでは読み込まれません。 centosがそれをどのように処理するかはわかりませんが、Ubuntuでは、カーネルがそれらをロードできるように、これらのモジュールを/ etc/modulesに配置する必要があります。
mlx4_ib
rdma_ucm
ib_umad
ib_uverbs
ib_ipoib
私はib_ipoibとmlx4_ibがすでにロードされていると仮定します。そうしないと、infinibandを介したIPネットワークが機能しません。
Libmlx4をインストールしていない場合は、それもインストールする必要があります。
それが失敗する場合は、Centosに必要なすべてのパッケージを一覧表示するこのリンクを試してください(注:libmthcaは古いmellanoxチップセット[infinihost]用ですので、ケースでは必要ありません。