Spark Dataframe Columnのコンテンツの表示

Question

私はSpark 1.3.1。

PythonでSparkデータフレーム列の値を表示しようとしています。Sparkデータフレームでは、df.collect()を実行して、データフレームの内容ですが、私が見ることができる限り最高のSparkデータフレーム列のようなメソッドはありません。

たとえば、データフレームdfには、'Zip_code'という名前の列が含まれています。したがって、df['Zip_code']を実行するとpyspark.sql.dataframe.Columnタイプになりますが、df['Zip_code']の値を表示する方法が見つかりません。

zero323 · Accepted Answer

基になるRDDにアクセスして、その上にマッピングできます

df.rdd.map(lambda r: r.Zip_code).collect()

selectオブジェクトを使用してラップされた結果を気にしない場合は、Rowを使用することもできます。

df.select('Zip_code').collect()

最後に、単にコンテンツを検査する場合は、showメソッドで十分です。

df.select('Zip_code').show()

Thomas Decaux · Answer

完全なコンテンツを表示するには：

df.select("raw").take(1).foreach(println)

（showは概要を表示します）。