私は現在spark 2.1.0を実行しています。ほとんどの時間PYSPARKShellで作業しましたが、python file(similar Javaでjarをspark-submitする)。Pythonでそれをどのように行いますか?
pythonfile.py
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("appName").getOrCreate()
sc = spark.sparkContext
rdd = sc.parallelize([1,2,3,4,5,6,7])
print(rdd.count())
必要な構成で上記のプログラムを実行します:例:
YOUR_SPARK_HOME/bin/spark-submit --master yourSparkMaster --num-executors 20 \
--executor-memory 1G --executor-cores 2 --driver-memory 1G \
pythonfile.py
これらのオプションは必須ではありません。あなたものように実行することができます
YOUR_SPARK_HOME/bin/spark-submit --master sparkMaster/local pythonfile.py