Python + ZMQ：現在の状態では操作を実行できません

Question

pythonプログラムを取得して別のpythonプログラムとzeromq経由で通信するために、request-replyパターンを使用してプログラムを取得しようとしています。クライアントプログラムは、返信するサーバープログラム。

私は2つのサーバーを持っているので、一方のサーバーに障害が発生すると、もう一方のサーバーが引き継ぎます。最初のサーバーが機能する場合、通信は完全に機能しますが、最初のサーバーに障害が発生し、2番目のサーバーに要求を行うと、エラーが表示されます。

zmp.error.ZMQError：現在の状態では操作を実行できません

サーバー1のコード：

# Run the server while True: # Define the socket using the "Context" sock = context.socket(zmq.REP) sock.bind("tcp://127.0.0.1:5677") data = sock.recv().decode("utf-8") res = "Recvd" sock.send(res.encode('utf-8'))

サーバー2のコード：

# Run the server while True: # Define the socket using the "Context" sock = context.socket(zmq.REP) sock.bind("tcp://127.0.0.1:5877") data = sock.recv().decode("utf-8") res = "Recvd" sock.send(res.encode('utf-8'))

クライアントのコード：

# ZeroMQ Context For distributed Message amogst processes context = zmq.Context() sock_1 = context.socket(zmq.REQ) sock_2 = context.socket(zmq.REQ) sock_1.connect("tcp://127.0.0.1:5677") sock_2.connect("tcp://127.0.0.1:5877") try: sock_1.send(data.encode('utf-8'), zmq.NOBLOCK) socks_1.setsockopt(zmq.RCVTIMEO, 1000) socks_1.setsockopt(zmq.LINGER, 0) data = socks_1.recv().decode('utf-8') #receive data from the main node except: try: #when server one fails sock_2.send(data.encode('utf-8'), zmq.NOBLOCK) socks_2.setsockopt(zmq.RCVTIMEO, 1000) socks_2.setsockopt(zmq.LINGER, 0) data = socks_2.recv().decode('utf-8') except Exception as e: print(str(e))

このアプローチの問題は何ですか？どうすればこれを解決できますか？

user3666197 · Accepted Answer

Q：どうすれば解決できますか？
A：_`REQ/REP`_デッドロックの既知のリスクを回避してください！

ZeroMQは強力なフレームワークですが、robustおよびreliable分散システムの設計とプロトタイピング。

よく見てみると、共通の_REQ/REP_形式的通信パターンを使用すると、相手方が相互にデッドロック状態になる可能性があります（実際にはそうではありません）。デッドロック状態から脱出する方法はありません。

詳細 図解の詳細およびFSA-schematic図については、この投稿を参照

次へ、フェイルオーバーシステムは、自身のコンポーネントの衝突に耐えなければなりません。したがって、分散システムの状態信号を適切に設計し、element-FSA-design/stepping/blockingへの依存をできるだけ避ける必要があります。そうしないと、フェイルセーフ動作は単なる幻想のままです。

常にリソースを慎重に処理します。ZeroMQスマートシグナリング/メッセージングのコンポーネントは、いかなる種類の「使い捨て」としても考慮しません。本番システム環境ではなく学者の例で。あなたはまだコストを支払う必要があります（時間、リソースの割り当て/割り当て解除/ガベージコレクション）。コメントで述べたように、正当な管理なしにリソースの作成/割り当てを行わないでください。 while True: .socket(); .bind(); .send();は原理的に残酷に間違っており、デザインの残りの部分を劣化させています。

Vassilis · Answer

lazy pirate pattern を実装します。エラーがキャッチされたときにコンテキストから新しいソケットを作成してから、メッセージを再度送信してください。

かなり良いブルートフォースソリューションは、エラーの後でREQソケットを閉じて再度開くことです。

ここはpythonの例です。

# # Author: Daniel Lundin <dln(at)eintr(dot)org> # from __future__ import print_function import zmq REQUEST_TIMEOUT = 2500 REQUEST_RETRIES = 3 SERVER_ENDPOINT = "tcp://localhost:5555" context = zmq.Context(1) print("I: Connecting to server…") client = context.socket(zmq.REQ) client.connect(SERVER_ENDPOINT) poll = zmq.Poller() poll.register(client, zmq.POLLIN) sequence = 0 retries_left = REQUEST_RETRIES while retries_left: sequence += 1 request = str(sequence).encode() print("I: Sending (%s)" % request) client.send(request) expect_reply = True while expect_reply: socks = dict(poll.poll(REQUEST_TIMEOUT)) if socks.get(client) == zmq.POLLIN: reply = client.recv() if not reply: break if int(reply) == sequence: print("I: Server replied OK (%s)" % reply) retries_left = REQUEST_RETRIES expect_reply = False else: print("E: Malformed reply from server: %s" % reply) else: print("W: No response from server, retrying…") # Socket is confused. Close and remove it. client.setsockopt(zmq.LINGER, 0) client.close() poll.unregister(client) retries_left -= 1 if retries_left == 0: print("E: Server seems to be offline, abandoning") break print("I: Reconnecting and resending (%s)" % request) # Create new connection client = context.socket(zmq.REQ) client.connect(SERVER_ENDPOINT) poll.register(client, zmq.POLLIN) client.send(request) context.term()

Python + ZMQ：現在の状態では操作を実行できません

Q：どうすれば解決できますか？ A：_REQ/REP_デッドロックの既知のリスクを回避してください！

Q：どうすれば解決できますか？
A：_`REQ/REP`_デッドロックの既知のリスクを回避してください！