pandas with Spark

sparkとパンダについてNoobの質問があります。パンダ、numpyなどをsparkで使用したいのですが、ライブラリをインポートすると、エラー。plzを手伝ってくれませんか？これは私のコードです

from pyspark import SparkContext, SQLContext
from pyspark import SparkConf
import pandas

# Config
conf = SparkConf().setAppName("Script")
sc = SparkContext(conf=conf)
log4j = sc._jvm.org.Apache.log4j
log4j.LogManager.getRootLogger().setLevel(log4j.Level.ERROR)
sqlCtx = SQLContext(sc)

# Importation of csv out of HDFS
data_name = "file_on_hdfs.csv"
data_textfile = sc.textFile(data_name)

これはエラーです：

ImportError: No module named pandas

パンダはどのように使用できますか？ローカルモードではありません。

pythonpandaspysparkimporterror

2017/01/23Zop

ターミナルでpip list|grep 'pandas'コマンドを使用して、ボックスにpandasがインストールされているかどうかを確認します。一致する場合は、apt-get updateを実行します。マルチノードクラスターを使用している場合、はい、すべてのクライアントボックスにpandasをインストールする必要があります。

sparkバージョンのDataFrameを試す方が良いですが、それでもpandasを使用したい場合は、上記の方法で機能します

2017/01/23Abu Tahir