a _pyspark.sql.DataFrame
_はDataFrame.show()
で乱雑に表示します-スクロールの代わりに行が折り返されます。
これらのオプションを試しました
_import IPython
IPython.auto_scroll_threshold = 9999
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"
from IPython.display import display
_
しかし運はありません。スクロールは、Atomエディターでjupyterプラグインを使用して使用すると機能します。
これは回避策です
_spark_df.limit(5).toPandas().head()
_
ただし、このクエリの計算負荷はわかりません。 limit()
は高価ではないと思います。修正は歓迎します。
以下のli'l関数を作成しましたが、正常に動作します。
def printDf(sprkDF):
newdf = sprkDF.toPandas()
from IPython.display import display, HTML
return HTML(newdf.to_html())
sparkクエリで直接使用することも、任意のsparkデータフレームで使用することもできます。
printDf(spark.sql('''
select * from employee
'''))