私はSpark 1.3.1。
PythonでSparkデータフレーム列の値を表示しようとしています。Sparkデータフレームでは、df.collect()
を実行して、データフレームの内容ですが、私が見ることができる限り最高のSparkデータフレーム列のようなメソッドはありません。
たとえば、データフレームdf
には、'Zip_code'
という名前の列が含まれています。したがって、df['Zip_code']
を実行するとpyspark.sql.dataframe.Column
タイプになりますが、df['Zip_code']
の値を表示する方法が見つかりません。
基になるRDD
にアクセスして、その上にマッピングできます
df.rdd.map(lambda r: r.Zip_code).collect()
select
オブジェクトを使用してラップされた結果を気にしない場合は、Row
を使用することもできます。
df.select('Zip_code').collect()
最後に、単にコンテンツを検査する場合は、show
メソッドで十分です。
df.select('Zip_code').show()
完全なコンテンツを表示するには:
df.select("raw").take(1).foreach(println)
(show
は概要を表示します)。