Tsがタイムスタンプであるこのようなデータ構造があるとしましょう
case class Record(ts: Long, id: Int, value: Int)
これらのレコードが多数ある場合、各IDのタイムスタンプが最も高いレコードになりたいと思います。 RDD apiを使用すると、次のコードで作業が完了すると思います。
def findLatest(records: RDD[Record])(implicit spark: SparkSession) = {
records.keyBy(_.id).reduceByKey{
(x, y) => if(x.ts > y.ts) x else y
}.values
}
同様に、これはデータセットを使った私の試みです。
def findLatest(records: Dataset[Record])(implicit spark: SparkSession) = {
records.groupByKey(_.id).mapGroups{
case(id, records) => {
records.reduceLeft((x,y) => if (x.ts > y.ts) x else y)
}
}
}
私はデータフレームで同様のことを達成する方法を模索していますが、役に立たない-私は次の方法でグループ化を行うことができることに気づきました。
records.groupBy($"id")
しかし、それは私にRelationGroupedDataSetを与え、私が望むものを達成するためにどの集計関数を書く必要があるかは私にはわかりません-私が見たすべての例の集計は、行全体ではなく、集計されている単一の列だけを返すことに焦点を当てているようです。
データフレームを使用してこれを実現することは可能ですか?
Argmaxロジックを使用できます( databricksの例 を参照)
たとえば、データフレームがdfと呼ばれ、列id、val、tsがあるとします。次のようにします。
import org.Apache.spark.sql.functions._
val newDF = df.groupBy('id).agg.max(struct('ts, 'val)) as 'tmp).select($"id", $"tmp.*")
データセットの場合、これを行い、Spark 2.1.1でテストしました
final case class AggregateResultModel(id: String,
mtype: String,
healthScore: Int,
mortality: Float,
reimbursement: Float)
.....
.....
// assume that the rawScores are loaded behorehand from json,csv files
val groupedResultSet = rawScores.as[AggregateResultModel].groupByKey( item => (item.id,item.mtype ))
.reduceGroups( (x,y) => getMinHealthScore(x,y)).map(_._2)
// the binary function used in the reduceGroups
def getMinHealthScore(x : AggregateResultModel, y : AggregateResultModel): AggregateResultModel = {
// complex logic for deciding between which row to keep
if (x.healthScore > y.healthScore) { return y }
else if (x.healthScore < y.healthScore) { return x }
else {
if (x.mortality < y.mortality) { return y }
else if (x.mortality > y.mortality) { return x }
else {
if(x.reimbursement < y.reimbursement)
return x
else
return y
}
}
}