pysparkは条件に応じて行をカウントします

Question

データフレームがあります

test = spark.createDataFrame([('bn', 12452, 221), ('mb', 14521, 330),('bn',2,220),('mb',14520,331)],['x','y','z']) test.show()

条件に基づいて行をカウントする必要があります。

test.groupBy("x").agg(count(col("y")>12453),count(col("z")>230)).show()

与える

 +---+------------------+----------------+ | x|count((y > 12453))|count((z > 230))| +---+------------------+----------------+ | bn| 2| 2| | mb| 2| 2| +---+------------------+----------------+

特定の条件の行ではなく、行の数だけです。

Psidom · Accepted Answer

countは合計しませんTrue s、null以外の値の数のみをカウントします。 True値をカウントするには、条件を1/0に変換してからsumに変換する必要があります。

import pyspark.sql.functions as F cnt_cond = lambda cond: F.sum(F.when(cond, 1).otherwise(0)) test.groupBy('x').agg( cnt_cond(F.col('y') > 12453).alias('y_cnt'), cnt_cond(F.col('z') > 230).alias('z_cnt') ).show() +---+-----+-----+ | x|y_cnt|z_cnt| +---+-----+-----+ | bn| 0| 0| | mb| 2| 2| +---+-----+-----+

newleaf · Answer

@Psidomの回答に基づいて、私の答えは次のとおりです

from pyspark.sql.functions import col,when,count test.groupBy("x").agg(count(when((col("y")>12453),True)),count(when(col("z")>230,True))).show()