botoを使用してEMRクラスターを起動および構成する方法

Question

クラスターを起動し、すべてbotoを使用してジョブを実行しようとしています。 job_flowsを作成する例がたくさんあります。しかし、私は私の人生のためにできません、次のことを示す例を見つけてください：

使用するクラスターを定義する方法（clusted_idによる）
クラスターの起動を構成する方法（たとえば、一部のタスクノードにスポットインスタンスを使用する場合）

私は何かが足りないのですか？

Vilsepi · Accepted Answer

Botoと基盤となるEMRAPIは現在、clusterとジョブフローという用語を混合しています）、およびジョブフローは非推奨です。私はそれらを同義語と見なします。

boto.emr.connection.run_jobflow()関数を呼び出して、新しいクラスターを作成します。 EMRが生成するクラスターIDが返されます。

まず、すべての必須事項：

#!/usr/bin/env python import boto import boto.emr from boto.emr.instance_group import InstanceGroup conn = boto.emr.connect_to_region('us-east-1')

次に、TASKノードに支払うスポット価格を含むインスタンスグループを指定します。

instance_groups = [] instance_groups.append(InstanceGroup( num_instances=1, role="MASTER", type="m1.small", market="ON_DEMAND", name="Main node")) instance_groups.append(InstanceGroup( num_instances=2, role="CORE", type="m1.small", market="ON_DEMAND", name="Worker nodes")) instance_groups.append(InstanceGroup( num_instances=2, role="TASK", type="m1.small", market="SPOT", name="My cheap spot nodes", bidprice="0.002"))

最後に、新しいクラスターを開始します。

cluster_id = conn.run_jobflow( "Name for my cluster", instance_groups=instance_groups, action_on_failure='TERMINATE_JOB_FLOW', keep_alive=True, enable_debugging=True, log_uri="s3://mybucket/logs/", hadoop_version=None, AMI_version="2.4.9", steps=[], bootstrap_actions=[], ec2_keyname="my-ec2-key", visible_to_all_users=True, job_flow_role="EMR_EC2_DefaultRole", service_role="EMR_DefaultRole")

気になる場合は、クラスターIDを出力することもできます。

print "Starting cluster", cluster_id

Jose Quinteiro · Answer

Boto3でEMRクラスターを起動するPythonの最小量は次のとおりです。

import boto3 client = boto3.client('emr', region_name='us-east-1') response = client.run_job_flow( Name="Boto3 test cluster", ReleaseLabel='emr-5.12.0', Instances={ 'MasterInstanceType': 'm4.xlarge', 'SlaveInstanceType': 'm4.xlarge', 'InstanceCount': 3, 'KeepJobFlowAliveWhenNoSteps': True, 'TerminationProtected': False, 'Ec2SubnetId': 'my-subnet-id', 'Ec2KeyName': 'my-key', }, VisibleToAllUsers=True, JobFlowRole='EMR_EC2_DefaultRole', ServiceRole='EMR_DefaultRole' )

注：次のことを行う必要があります create EMR_EC2_DefaultRoleおよびEMR_DefaultRole 。 AmazonのドキュメントはJobFlowRoleとServiceRoleはオプションであると主張していますが、それらを省略してもうまくいきませんでした。これは、私のサブネットがVPCサブネットであることが原因である可能性がありますが、よくわかりません。

shifu.zheng · Answer

次のコードを使用して、flinkがインストールされたEMRを作成し、3つのインスタンスグループを含めます。参照ドキュメント： https://boto3.amazonaws.com/v1/documentation/api/latest/reference/services/emr.html#EMR.Client.run_job_flow

import boto3 masterInstanceType = 'm4.large' coreInstanceType = 'c3.xlarge' taskInstanceType = 'm4.large' coreInstanceNum = 2 taskInstanceNum = 2 clusterName = 'my-emr-name' emrClient = boto3.client('emr') logUri = 's3://bucket/xxxxxx/' releaseLabel = 'emr-5.17.0' #emr version instances = { 'Ec2KeyName': 'my_keyxxxxxx', 'Ec2SubnetId': 'subnet-xxxxxx', 'ServiceAccessSecurityGroup': 'sg-xxxxxx', 'EmrManagedMasterSecurityGroup': 'sg-xxxxxx', 'EmrManagedSlaveSecurityGroup': 'sg-xxxxxx', 'KeepJobFlowAliveWhenNoSteps': True, 'TerminationProtected': False, 'InstanceGroups': [{ 'InstanceRole': 'MASTER', "InstanceCount": 1, "InstanceType": masterInstanceType, "Market": "SPOT", "Name": "Master" }, { 'InstanceRole': 'CORE', "InstanceCount": coreInstanceNum, "InstanceType": coreInstanceType, "Market": "SPOT", "Name": "Core", }, { 'InstanceRole': 'TASK', "InstanceCount": taskInstanceNum, "InstanceType": taskInstanceType, "Market": "SPOT", "Name": "Core", } ] } bootstrapActions = [{ 'Name': 'Log to Cloudwatch Logs', 'ScriptBootstrapAction': { 'Path': 's3://mybucket/bootstrap_cwl.sh' } }, { 'Name': 'Custom action', 'ScriptBootstrapAction': { 'Path': 's3://mybucket/install.sh' } }] applications = [{'Name': 'Flink'}] serviceRole = 'EMR_DefaultRole' jobFlowRole = 'EMR_EC2_DefaultRole' tags = [{'Key': 'keyxxxxxx', 'Value': 'valuexxxxxx'}, {'Key': 'key2xxxxxx', 'Value': 'value2xxxxxx'} ] steps = [ { 'Name': 'Run Flink', 'ActionOnFailure': 'TERMINATE_JOB_FLOW', 'HadoopJarStep': { 'Jar': 'command-runner.jar', 'Args': ['flink', 'run', '-m', 'yarn-cluster', '-p', str(taskInstanceNum), '-yjm', '1024', '-ytm', '1024', '/home/hadoop/test-1.0-SNAPSHOT.jar' ] } }, ] response = emrClient.run_job_flow( Name=clusterName, LogUri=logUri, ReleaseLabel=releaseLabel, Instances=instances, Steps=steps, Configurations=configurations, BootstrapActions=bootstrapActions, Applications=applications, ServiceRole=serviceRole, JobFlowRole=jobFlowRole, Tags=tags )

ADV-IT · Answer

私のステップ引数は次のとおりです：bash -c /usr/bin/flink run -m yarn-cluster -yn 2 /home/hadoop/mysflinkjob.jar

同じrun_job_flowを実行しようとしましたが、エラーが発生しました：

プログラム "/ usr/bin/flink run -myarn-cluster -yn 2 /home/hadoop/mysflinkjob.jar"（ディレクトリ "。"内）を実行できません：error = 2、そのようなファイルまたはディレクトリはありません

マスターノードから同じコマンドを実行しますが、Python boto3

問題は、EMRまたはboto3が引数に追加する引用符が原因のようです。

更新：

すべての引数を空白で分割します。つまり、"flink run myflinkjob.jar"を実行する必要がある場合は、引数を次のリストとして渡します。

['flink'、 'run'、 'myflinkjob.jar']