web-dev-qa-db-ja.com

RHEL6.3上の2つのサーバー間のスイッチレスInfiniband

2ポートのInfinibandカードを備えたRHEL6.3を実行している2台のサーバーがあります

>lspci | grep -i infini
07:00.0 InfiniBand: QLogic Corp. IBA7322 QDR InfiniBand HCA (rev 02)

Infinibandスイッチ(私は持っていません)をバイパスして、それらを互いに直接接続することに興味があります。クイックグーグルは、少なくともいくつかの構成で それは可能です であることを示しました。

すべてのRedHatInfinibandパッケージをyum groupinstall "Infiniband Support"でインストールしました。ただし、ibv_devinfoは、各カードの両方のポートがダウンしていることを示しています。これは、ケーブルが接続されていないことを示しています。ただし、カードのLEDはオフになっていますが、ケーブル接続されています(良い兆候ではありません)。私にとってもう1つの混乱の原因は、 this によると、RedHatには [〜#〜] ofed [〜#〜] パッケージが付属しておらず、少し躊躇していることです。 RedHatがサポートされていないため、ソースからインストールします...では、これはどこに行くのでしょうか?私が持っている質問は次のとおりです。

  1. 上記の方法で、2台のサーバー間でスイッチレス/直接Infiniband接続を行うことは可能ですか?
  2. 可能であれば、OFEDパッケージを使用する必要がありますか、それともRHELに付属のパッケージだけですべてを構成できますか。
  3. ケーブルが接続されているのに、サーバーのLEDがオフになっているのはなぜですか?

追加の入力/アドバイス/ポインタをいただければ幸いです。

P.S.インストール手順については、 このガイド に従いました。 InfinibandカードはOSによって明確に認識され、rdmaサービスが実行されています。

更新:opensmをインストールしました。私がそれを実行すると、それは言う:

OpenSM 3.3.13
Command Line Arguments:
 Log File: /var/log/opensm.log
-------------------------------------------------
OpenSM 3.3.13

Entering DISCOVERING state

Using default GUID 0x1175000076e4c8
SM port is down

そしてその時点にとどまります。

更新2:構成をRedHatパッケージで動作させることができませんでした。 openfabricsのOFEDパッケージも機能しませんでした。しかし、私はIntel(今年初めにQLogicを買収した)の公式ドライバーを見つけました。カードを機能させて相互に通信しても、再起動後はPORT_ACTIVE状態に戻らないからです。まあ、私はおそらくそれについて別の質問を投稿します。

6
exfizik

応答が遅いが、これは実際にはIntelドライバーの既知のバグです。

起動後にこれを実行してみてください:

ibportstate -D 0 1 enable
4
Krobar

カードの製造元であるQLogicが提供するドライバーを探してみてください。

2
googler
  1. はい、そうです
  2. はい、6.3のRHELパッケージは機能するはずです
  3. これは良い質問です

「ibstat」の出力は何を示していますか?ポートの物理的状態はダウンしていますか?答えはおそらく「はい」です。ケーブルや接続になんらかの問題があると思います。 SMを実行する前のibv_devinfoのポート状態はPORT_INITである必要があります。 PORT_DOWNは、リンクがないことを示しています。

1
Ira

古い質問ですが、これが私の答えです。

1)カード用のカーネルドライバがロードされていますか? ib_qibである必要があります

試してください:

lsmod | grep ib_qib

ロードされていない場合は、起動時に/ etc/modulesまたは、redhat標準がこのようなものに使用するものにロードするように構成します。 (Debianベースのシステムでは/ etc/modulesです)。

また、IPoIBを実行する場合は、そのモジュールをロードする必要があります。これは、あなたのケースに推奨される最小値です。

ib_qib
rdma_ucm
ib_umad
ib_uverbs
ib_ipoib

2)サブネットマネージャーが実行されていることを確認します。両方のポートで実行する必要があります。したがって、プロセスリストで実行されているサブネットマネージャーのコピーがポートごとに1つずつ表示されます。

0
Matt