私はすでにsparkインストールを完了し、マスターノードとワーカーノードを設定するいくつかのテストケースを実行しました。つまり、Sparkコンテキスト(SparkContextではありません)以下の質問があります
Spark documention を読みましたが、それでもこのことは私には明らかではありません。
とは言っても、私の実装は、スパーク送信を行うspark jobs {programmatically}と書くことです。
可能であれば、いくつかの例を参考にしてください。とても助かります。
注:親切にsparkリンクを投稿しないでください。理解をより明確にする必要があります。
まあ、用語は文脈に依存するため、常に難しい場合があります。多くの場合、「ジョブをクラスターに送信する」ために使用できます。これは、sparkに対してドライバープログラムを送信することになります。
とは言っても、Sparkには用語集から直接「job」の定義があります。
ジョブSpark=アクション(保存、収集など)に応答して生成される複数のタスクで構成される並列計算。この用語は、ドライバーのログで使用されます。
このコンテキストでは、次のことを行う必要があるとしましょう。
そう、
物事がより明確になることを願っています;-)
ちょっとここで私が前にやったことがあります、それがあなたのために働くことを願っています:
#!/bin/bash
# Hadoop and Server Variables
HADOOP="hadoop fs"
HDFS_HOME="hdfs://ha-Edge-group/user/max"
LOCAL_HOME="/home/max"
# Cluster Variables
DRIVER_MEM="10G"
EXECUTOR_MEM="10G"
CORES="5"
EXECUTORS="15"
# Script Arguments
SCRIPT="availability_report.py" # Arg[0]
APPNAME="Availability Report" # arg[1]
DAY=`date -d yesterday +%Y%m%d`
for HOUR in 00 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23
do
#local directory to getmerge to
LOCAL_OUTFILE="$LOCAL_HOME/availability_report/data/$DAY/$HOUR.txt"
# Script arguments
HDFS_SOURCE="webhdfs://1.2.3.4:0000/data/lbs_ndc/raw_$DAY'_'$HOUR" # arg[2]
HDFS_CELLS="webhdfs://1.2.3.4:0000/data/cells/CELLID_$DAY.txt" # arg[3]
HDFS_OUT_DIR="$HDFS_HOME/availability/$DAY/$HOUR" # arg[4]
spark-submit \
--master yarn-cluster \
--driver-memory $DRIVER_MEM \
--executor-memory $EXECUTOR_MEM \
--executor-cores $CORES \
--num-executors $EXECUTORS \
--conf spark.scheduler.mode=FAIR \
$SCRIPT $APPNAME $HDFS_SOURCE $HDFS_CELLS $HDFS_OUT_DIR
$HADOOP -getmerge $HDFS_OUT_DIR $LOCAL_OUTFILE
done