pysparkは、ipythonノートブックの水平スクロールでテーブルとしてデータフレームを表示します

Question

a _pyspark.sql.DataFrame_はDataFrame.show()で乱雑に表示します-スクロールの代わりに行が折り返されます。

_pandas.DataFrame.head_

これらのオプションを試しました

_import IPython IPython.auto_scroll_threshold = 9999 from IPython.core.interactiveshell import InteractiveShell InteractiveShell.ast_node_interactivity = "all" from IPython.display import display _

しかし運はありません。スクロールは、Atomエディターでjupyterプラグインを使用して使用すると機能します。

muon · Accepted Answer

これは回避策です

_spark_df.limit(5).toPandas().head() _

ただし、このクエリの計算負荷はわかりません。 limit()は高価ではないと思います。修正は歓迎します。

Mbhatt · Answer

以下のli'l関数を作成しましたが、正常に動作します。

def printDf(sprkDF): newdf = sprkDF.toPandas() from IPython.display import display, HTML return HTML(newdf.to_html())

sparkクエリで直接使用することも、任意のsparkデータフレームで使用することもできます。

printDf(spark.sql(''' select * from employee '''))