最大1,000万件のレコードを持つデータフレームがあります。すぐにカウントを取得するにはどうすればよいですか? df.count
は非常に時間がかかっています。
とにかく時間がかかります。少なくとも初めて。
1つの方法は、データフレームをキャッシュすることです。そのため、カウント以外に、データフレームをさらに使用できます。
例えば
df.cache()
df.count()
後続の操作にはそれほど時間がかかりません。
file.groupBy("<column-name>").count().show()