データフレームをPandasに変換することなく、Sparkデータフレームから情報をプロットする方法はありますか?
オンライン調査を行いましたが、方法を見つけることはできません。これらのプロットを自動的に.pdfとして自動的に保存する必要があるため、データレーションから組み込まれたビジュアライゼーションツールを使用すると機能しません。
今、これは私がやっていることです(例として):
_# df = some Spark data frame
df = df.toPandas()
df.plot()
display(plt.show())
_
データフレームをpandasデータフレームに変換することなく、ライングラフ、ヒストグラム、棒グラフ、および散布プロットを作成したいです。ありがとうございました!
ディスプレイ機能は、SparkではなくDatabricksカーネルノートブックでのみ利用可能です。
あなたはあなたのデータを収集することができ、それをMatplotLibを使ってプロットすることができます。そこから、出力を簡単にPDFとして保存できます。 Pythonでデータを収集する簡単な例:
spark.sql('SELECT * FROM <your table>').collect()
_
Sparkデータフレームを使用してdisplay(<dataframe-name>)
関数をオフィス文書として使用するためだけに Visualizations
次のように述べた。
その後、プロットの種類を選択し、そのオプションを下の図として変更して、spark DataFrameを直接表示します。
pandas DataFrameプロットと同じチャートを表示したい場合は、現在の方法が唯一の方法です。