私はClouderaで遊んでいて、ジョブを開始する前にクラスターの数を定義してから、clouderaマネージャーを使用してすべてが実行されていることを確認します。
私は、hadoopを使用する代わりにメッセージキューを使用して作業を配布する新しいプロジェクトに取り組んでいますが、作業の結果はHBaseに保存されます。ジョブを処理してHbaseに保存するために、10台のサーバーを起動する可能性がありますが、後でさらにいくつかのワーカーノードを追加することにした場合、ローカルで追加できるように、実行中のクラスターに自動的に接続するように簡単に(読み取り:プログラム可能)できますか? HBase/HDFSをクラスター化するには?
これは可能ですか?それを行うには何を学ぶ必要がありますか?
次の手順は、実行中のクラスターで新しいノードを起動するのに役立ちます。
1> Update the /etc/hadoop/conf/slaves list with the new node-name
2> Sync the full configuration /etc/hadoop/conf to the new datanode from the Namenode. If the file system isn't shared.
2> Restart all the hadoop services on Namenode/Tasktracker and all the services on the new Datanode.
3> Verify the new datanode from the browser http://namenode:50070
4> Run the balancer script to readjust the data between the nodes.
NNでサービスを再起動したくない場合は、新しいノードを追加するときに。スレーブ構成ファイルに名前を先に追加すると思います。そのため、使用可能になるまで、廃止/デッドノードとして報告します。上記のDataNodeのみの手順に従います。繰り返しますが、これはベストプラクティスではありません。
CDH 5.8.5(Hadoop 2.6)を使用したClouderaの回答を更新-
クラスターに新しいノードを追加するには、ClouderaManagerUIで次の手順に従います。
私があなたを正しく理解していれば、HBaseに接続してデータを保存する自分で調整するワーカーがいます。それらは必要な数だけ持つことができ、追加されたときにHbaseに接続できます(動物園の定足数を見ることができる限り)。
Hadoopクラスターの増加について話している場合。すでにClouderaを使用しているので、 cloudera Manager REST API または 誰かが実装したJavaクライアント