pysparkスクリプトでSparkContextにアクセスする方法

Question

次のSOF質問 Pysparkでスクリプトを実行し、完了したらIPython Shellにドロップする方法は、pysparkスクリプトを起動する方法を示しています。

 %run -d myscript.py

しかし、existin sparkコンテキストにどのようにアクセスしますか？

新しいものを作成するだけでは機能しません：

 ----> sc = SparkContext("local", 1) ValueError: Cannot run multiple SparkContexts at once; existing SparkContext(app=PySparkShell, master=local) created by <module> at /Library/Python/2.7/site-packages/IPython/utils/py3compat.py:204

しかし、既存のものを使用しようとしています..よくwhat既存のもの？

In [50]: for s in filter(lambda x: 'SparkContext' in repr(x[1]) and len(repr(x[1])) < 150, locals().iteritems()): print s ('SparkContext', <class 'pyspark.context.SparkContext'>)

つまり、SparkContextインスタンスの変数はありません。

TechnoIndifferent · Accepted Answer

pyspark.contextインポートSparkContext

次に、SparkContextの静的メソッドを次のように呼び出します。

sc = SparkContext.getOrCreate()

vijay kumar · Answer

スタンドアロンpythonスクリプトfor wordcount：再利用可能なsparkコンテキストを使用してcontextmanager

"""SimpleApp.py""" from contextlib import contextmanager from pyspark import SparkContext from pyspark import SparkConf SPARK_MASTER='local' SPARK_APP_NAME='Word Count' SPARK_EXECUTOR_MEMORY='200m' @contextmanager def spark_manager(): conf = SparkConf().setMaster(SPARK_MASTER) \ .setAppName(SPARK_APP_NAME) \ .set("spark.executor.memory", SPARK_EXECUTOR_MEMORY) spark_context = SparkContext(conf=conf) try: yield spark_context finally: spark_context.stop() with spark_manager() as context: File = "/home/ramisetty/sparkex/README.md" # Should be some file on your system textFileRDD = context.textFile(File) wordCounts = textFileRDD.flatMap(lambda line: line.split()).map(lambda Word: (Word, 1)).reduceByKey(lambda a, b: a+b) wordCounts.saveAsTextFile("output") print "WordCount - Done"

起動するには：

/bin/spark-submit SimpleApp.py

mnm · Answer

ターミナルでpysparkと入力すると、pythonが自動的にspark context sc。