web-dev-qa-db-ja.com

pysparkでデータフレームの実際のサイズを推定するにはどうすればよいですか?

データフレームのサイズを決定する方法は?

現在、私はデータフレームの実際のサイズを次のように推定しています:

headers_size = key for key in df.first().asDict()
rows_size = df.map(lambda row: len(value for key, value in row.asDict()).sum()
total_size = headers_size + rows_size

遅すぎるので、もっと良い方法を探しています。

13
TheSilence

Tamas Szuromiからの素敵な投稿 http://metricbrew.com/how-to-estimate-rdd-or-dataframe-real-size-in-pyspark/

from pyspark.serializers import PickleSerializer, AutoBatchedSerializer
def _to_Java_object_rdd(rdd):  
    """ Return a JavaRDD of Object by unpickling
    It will convert each Python object into Java object by Pyrolite, whenever the
    RDD is serialized in batch or not.
    """
    rdd = rdd._reserialize(AutoBatchedSerializer(PickleSerializer()))
    return rdd.ctx._jvm.org.Apache.spark.mllib.api.python.SerDe.pythonToJava(rdd._jrdd, True)

JavaObj = _to_Java_object_rdd(df.rdd)

nbytes = sc._jvm.org.Apache.spark.util.SizeEstimator.estimate(JavaObj)
11
Ziggy Eunicien

現在、私は以下のアプローチを使用していますが、これが最善の方法かどうかはわかりません

df.persist(StorageLevel.Memory) df.count()

[ストレージ]タブの[spark-web ui]で、MB単位で表示されるサイズを確認できます。その後、永続的にメモリをクリアします。

df.unpersist()

6
Kiran Thati