EMRクラスターを実行しており、データ分析にZeppelinノートブックを使用しようとしています。
バージョン:リリースラベル:emr-5.2.1
Hadoopディストリビューション:Amazon 2.7.3
Hive 2.1.0
Spark 2.0.2
ツェッペリン0.6.2
クエリの実行中にZeppelinがハングアップするという問題が常に発生し、回復できません。私が試してみました:
-インタープリターの再始動
-マスターノードにSSH接続して実行中zeppelin_daemon.sh restart
(hadoop/root/zeppelinとして実行し、オプションreload
、start/stop
、upstart
)
デーモンシェルスクリプトを使用するたびに、正常に停止/開始したことが通知されますが、ステータスを実行すると次のようになります。Zeppelin running but process is dead [FAILED]
私ができるように見える唯一のことは、私のクラスターを殺して新しいクラスターを立ち上げることです。これは多くのレベルで狂っています。
だから...ツェッペリンを再起動するために公式にサポートされている方法は何ですか?
私はマスターノードにsshしてから実行しました
$ Sudo stop zeppelin
zeppelin stop/waiting
$ Sudo start zeppelin
zeppelin start/running, process 24434
その直後、Zeppelinをリフレッシュすると503が得られましたが、約2分後、UIが再び使用可能になりました。/var/log/zeppelinのログを確認したところ、設定に時間がかかりました。
EMR上のサービスはupstartを使用し、それらを再起動するためのサポートされている方法は、「Sudo stop <service-name>; Sudo start <service-name>」を使用することです。 (開始コマンドと停止コマンドは、デフォルトでPATHにある/ sbinにあります。)
注:現在EMRには/ sbin/restartが正しく機能しない制限があるため、再起動ではなく停止してから起動する必要があります。
やってみました:
Sudo /usr/lib/zeppelin/bin/zeppelin-daemon.sh stop/start?
これは少しばかげているように聞こえるかもしれませんが、なぜ機能するのかはわかりません。ただし、デーモンの停止/開始を発行し、それを機能させるのに問題がありました。しかし、デーモンを実行できる場合は、動作することがわかっているノートブックを起動し、問題のあるノートブックに変更すると、少なくとも自分が行った作業を回復できる程度まで、ハングを修正できることがあります。