Lambda関数からAmazon EMRでspark submitを実行する方法は？

Question

spark S3のファイルアップロードイベントに基づいてAWS EMRクラスターでジョブを送信します。AWSLambda関数を使用してイベントをキャプチャしていますが、送信方法がわかりませんspark Lambda関数からのEMRクラスターでのジョブの送信。

私が検索した答えのほとんどは、EMRクラスターにステップを追加することについて話していました。しかし、追加したステップで「spark submit --with args」を起動するステップを追加できるかどうかはわかりません。

Osama Haggag · Answer

できます、私は先週同じことをしなければなりませんでした！

Pythonに対してboto3を使用します（他の言語でも間違いなく同様のソリューションがあります）。定義したステップでクラスターを開始するか、すでに稼働中のクラスターにステップをアタッチできます。

ステップでクラスターを定義する

def lambda_handler(event, context): conn = boto3.client("emr") cluster_id = conn.run_job_flow( Name='ClusterName', ServiceRole='EMR_DefaultRole', JobFlowRole='EMR_EC2_DefaultRole', VisibleToAllUsers=True, LogUri='s3n://some-log-uri/elasticmapreduce/', ReleaseLabel='emr-5.8.0', Instances={ 'InstanceGroups': [ { 'Name': 'Master nodes', 'Market': 'ON_DEMAND', 'InstanceRole': 'MASTER', 'InstanceType': 'm3.xlarge', 'InstanceCount': 1, }, { 'Name': 'Slave nodes', 'Market': 'ON_DEMAND', 'InstanceRole': 'CORE', 'InstanceType': 'm3.xlarge', 'InstanceCount': 2, } ], 'Ec2KeyName': 'key-name', 'KeepJobFlowAliveWhenNoSteps': False, 'TerminationProtected': False }, Applications=[{ 'Name': 'Spark' }], Configurations=[{ "Classification":"spark-env", "Properties":{}, "Configurations":[{ "Classification":"export", "Properties":{ "PYSPARK_PYTHON":"python35", "PYSPARK_DRIVER_PYTHON":"python35" } }] }], BootstrapActions=[{ 'Name': 'Install', 'ScriptBootstrapAction': { 'Path': 's3://path/to/bootstrap.script' } }], Steps=[{ 'Name': 'StepName', 'ActionOnFailure': 'TERMINATE_CLUSTER', 'HadoopJarStep': { 'Jar': 's3n://elasticmapreduce/libs/script-runner/script-runner.jar', 'Args': [ "/usr/bin/spark-submit", "--deploy-mode", "cluster", 's3://path/to/code.file', '-i', 'input_arg', '-o', 'output_arg' ] } }], ) return "Started cluster {}".format(cluster_id)

すでに実行中のクラスターへのステップのアタッチ

ここ

def lambda_handler(event, context): conn = boto3.client("emr") # chooses the first cluster which is Running or Waiting # possibly can also choose by name or already have the cluster id clusters = conn.list_clusters() # choose the correct cluster clusters = [c["Id"] for c in clusters["Clusters"] if c["Status"]["State"] in ["RUNNING", "WAITING"]] if not clusters: sys.stderr.write("No valid clusters
") sys.stderr.exit() # take the first relevant cluster cluster_id = clusters[0] # code location on your emr master node CODE_DIR = "/home/hadoop/code/" # spark configuration example step_args = ["/usr/bin/spark-submit", "--spark-conf", "your-configuration", CODE_DIR + "your_file.py", '--your-parameters', 'parameters'] step = {"Name": "what_you_do-" + time.strftime("%Y%m%d-%H:%M"), 'ActionOnFailure': 'CONTINUE', 'HadoopJarStep': { 'Jar': 's3n://elasticmapreduce/libs/script-runner/script-runner.jar', 'Args': step_args } } action = conn.add_job_flow_steps(JobFlowId=cluster_id, Steps=[step]) return "Added step: %s"%(action)

vipul choudhary · Answer

AWS Lambda関数python実行する場合のコードSpark jar using spark submit command：

from botocore.vendored import requests import json def lambda_handler(event, context): headers = { "content-type": "application/json" } url = 'http://ip-address.ec2.internal:8998/batches' payload = { 'file' : 's3://Bucket/Orchestration/RedshiftJDBC41.jar s3://Bucket/Orchestration/mysql-connector-Java-8.0.12.jar s3://Bucket/Orchestration/SparkCode.jar', 'className' : 'Main Class Name', 'args' : [event.get('rootPath')] } res = requests.post(url, data = json.dumps(payload), headers = headers, verify = False) json_data = json.loads(res.text) return json_data.get('id')