web-dev-qa-db-ja.com

Spark Dataframe Columnのコンテンツの表示

私はSpark 1.3.1。

PythonでSparkデータフレーム列の値を表示しようとしています。Sparkデータフレームでは、df.collect()を実行して、データフレームの内容ですが、私が見ることができる限り最高のSparkデータフレーム列のようなメソッドはありません。

たとえば、データフレームdfには、'Zip_code'という名前の列が含まれています。したがって、df['Zip_code']を実行するとpyspark.sql.dataframe.Columnタイプになりますが、df['Zip_code']の値を表示する方法が見つかりません。

26
John Lin

基になるRDDにアクセスして、その上にマッピングできます

df.rdd.map(lambda r: r.Zip_code).collect()

selectオブジェクトを使用してラップされた結果を気にしない場合は、Rowを使用することもできます。

df.select('Zip_code').collect()

最後に、単にコンテンツを検査する場合は、showメソッドで十分です。

df.select('Zip_code').show()
29
zero323

完全なコンテンツを表示するには:

df.select("raw").take(1).foreach(println)

showは概要を表示します)。

2
Thomas Decaux