pysparkを使用していくつかのフィールドでグループ化された特定のデータセットからmax（date）を取得する方法は？

Question

私は次のようにデータフレームにデータを持っています：

 datetime | userId | memberId | value | 2016-04-06 16:36:... | 1234 | 111 | 1 2016-04-06 17:35:... | 1234 | 222 | 5 2016-04-06 17:50:... | 1234 | 111 | 8 2016-04-06 18:36:... | 1234 | 222 | 9 2016-04-05 16:36:... | 4567 | 111 | 1 2016-04-06 17:35:... | 4567 | 222 | 5 2016-04-06 18:50:... | 4567 | 111 | 8 2016-04-06 19:36:... | 4567 | 222 | 9

Max（datetime）groupby userid、memberidを見つける必要があります。私が以下のように試したとき：

df2 = df.groupBy('userId','memberId').max('datetime')

次のようにエラーが発生しています：

org.Apache.spark.sql.AnalysisException: "datetime" is not a numeric column. Aggregation function can only be applied on a numeric column.;

必要な出力は次のとおりです。

userId | memberId | datetime 1234 | 111 | 2016-04-06 17:50:... 1234 | 222 | 2016-04-06 18:36:... 4567 | 111 | 2016-04-06 18:50:... 4567 | 222 | 2016-04-06 19:36:...

PySparkデータフレームを使用して、指定されたデータの最大日付を取得する方法を誰か助けてくれますか？

zero323 · Accepted Answer

数値ではないがOrderable型の場合、aggをmaxと直接使用できます。

from pyspark.sql.functions import col, max as max_ df = sc.parallelize([ ("2016-04-06 16:36", 1234, 111, 1), ("2016-04-06 17:35", 1234, 111, 5), ]).toDF(["datetime", "userId", "memberId", "value"]) (df.withColumn("datetime", col("datetime").cast("timestamp")) .groupBy("userId", "memberId") .agg(max_("datetime"))) ## +------+--------+--------------------+ ## |userId|memberId| max(datetime)| ## +------+--------+--------------------+ ## | 1234| 111|2016-04-06 17:35:...| ## +------+--------+--------------------+