データフレームのサイズを決定する方法は?
現在、私はデータフレームの実際のサイズを次のように推定しています:
headers_size = key for key in df.first().asDict()
rows_size = df.map(lambda row: len(value for key, value in row.asDict()).sum()
total_size = headers_size + rows_size
遅すぎるので、もっと良い方法を探しています。
Tamas Szuromiからの素敵な投稿 http://metricbrew.com/how-to-estimate-rdd-or-dataframe-real-size-in-pyspark/
from pyspark.serializers import PickleSerializer, AutoBatchedSerializer
def _to_Java_object_rdd(rdd):
""" Return a JavaRDD of Object by unpickling
It will convert each Python object into Java object by Pyrolite, whenever the
RDD is serialized in batch or not.
"""
rdd = rdd._reserialize(AutoBatchedSerializer(PickleSerializer()))
return rdd.ctx._jvm.org.Apache.spark.mllib.api.python.SerDe.pythonToJava(rdd._jrdd, True)
JavaObj = _to_Java_object_rdd(df.rdd)
nbytes = sc._jvm.org.Apache.spark.util.SizeEstimator.estimate(JavaObj)
現在、私は以下のアプローチを使用していますが、これが最善の方法かどうかはわかりません
df.persist(StorageLevel.Memory) df.count()
[ストレージ]タブの[spark-web ui]で、MB単位で表示されるサイズを確認できます。その後、永続的にメモリをクリアします。
df.unpersist()