web-dev-qa-db-ja.com

pyspark RDDのパーティションを表示する

Pyspark RDDドキュメント

http://spark.Apache.org/docs/1.2.1/api/python/pyspark.html#pyspark.RDD

rDDのパーティション情報を表示するメソッドは表示されません。

追加のステップを実行せずにその情報を取得する方法はありますか?

myrdd.mapPartitions(lambda x: iter[1]).sum()

上記は機能しますが、余分な労力のようです。

11
javadba

私はそれを逃した:非常に簡単:

rdd.getNumPartitions()

Java風には使いませんget FooMethod();)

pdate:@dnlbrkyからのコメントに追加:

dataFrame.rdd.getNumPartitions()
36
javadba