私はGH開発マスターからSpark 1.4をビルドしましたが、ビルドは順調に進みました。しかし、bin/pyspark
を実行すると、Python 2.7.9バージョンが取得されます。これを変更するにはどうすればよいですか?
環境変数を設定するだけです:
export PYSPARK_PYTHON=python3
これを永続的な変更にしたい場合は、この行をpysparkスクリプトに追加してください。
PYSPARK_PYTHON=python3
./bin/pyspark
IPython Notebookで実行する場合は、次のように記述します。
PYSPARK_PYTHON=python3
PYSPARK_DRIVER_PYTHON=ipython
PYSPARK_DRIVER_PYTHON_OPTS="notebook"
./bin/pyspark
python3
にアクセスできない場合は、代わりにパスを渡す必要があります。
現在のドキュメント(1.4.1現在) には古い指示が含まれていることに注意してください。幸いなことに、 パッチが適用されています 。
1、プロファイルの編集:vim ~/.profile
2、コードをファイルに追加します:export PYSPARK_PYTHON=python3
3、コマンドを実行します:source ~/.profile
4、./bin/pyspark
ファイルをご覧ください。 Shebang行は、おそらく最初の互換性のある実行可能ファイルのパスを検索する 'env'バイナリを指しているでしょう。
pythonをpython3に変更できます。 envを変更して、python3バイナリをハードコード化して直接使用します。または、python3でバイナリを直接実行し、Shebang行を省略します。
Jupyter Notebookの場合、コマンドラインから以下のようにspark-env.sh
ファイルを編集します
$ vi $SPARK_HOME/conf/spark-env.sh
ファイルの下部に移動し、これらの行をコピーして貼り付けます
export PYSPARK_PYTHON=python3
export PYSPARK_DRIVER_PYTHON=jupyter
export PYSPARK_DRIVER_PYTHON_OPTS="notebook"
次に、次のコマンドを実行して、ノートブックでpysparkを起動します。
$ pyspark