PySparkでDataFrameのサイズ/形状を見つけようとしています。これを実行できる単一の関数は表示されません。
Pythonでできること
data.shape()
PySparkに同様の機能がありますか。これは私の現在のソリューションですが、要素1を探しています
row_number = data.count()
column_number = len(data.dtypes)
列数の計算は理想的ではありません...
print((df.count(), len(df.columns)))
df.count()
を使用して行数を取得します。
これをコードに追加します。
def spark_shape(self):
return (self.count(), len(self.columns))
pyspark.sql.dataframe.DataFrame.shape = spark_shape
その後、あなたはできる
>>> df.shape()
(10000, 10)
ただし、.count()
は非常に大きなデータセットでは非常に遅くなる可能性があることを思い出してください。
Sparkにはdata.shape
のような類似の関数はないと思います。ただし、len(data.columns)
ではなくlen(data.dtypes)
を使用します