私はDataFrameを使用しています、DataFrameは2つの列 'value'と 'timestamp'を持っています。'timestmp 'は順序付けされています。
これは私の入力です:
+-----+---------+
|value|timestamp|
+-----+---------+
| 1| 1|
| 4| 2|
| 3| 3|
| 2| 4|
| 5| 5|
| 7| 6|
| 3| 7|
| 5| 8|
| 4| 9|
| 18| 10|
+-----+---------+
これは私のコードです:
val arr = Array((1,1),(4,2),(3,3),(2,4),(5,5),(7,6),(3,7),(5,8),(4,9),(18,10))
var df=m_sparkCtx.parallelize(arr).toDF("value","timestamp")
これは私の期待される結果です:
+-----+---------+
|value|timestamp|
+-----+---------+
| 18| 10|
+-----+---------+
単にreduce
:
df.reduce { (x, y) =>
if (x.getAs[Int]("timestamp") > y.getAs[Int]("timestamp")) x else y
}
これを試してください、それは私のために働きます。
df.orderBy($"value".desc).show(1)
私は単にクエリを使用します-降順でテーブルを並べ替えます-この順序から最初の値を取得します
df.createOrReplaceTempView("table_df")
query_latest_rec = """SELECT * FROM table_df ORDER BY value DESC limit 1"""
latest_rec = self.sqlContext.sql(query_latest_rec)
latest_rec.show()
最も効率的な方法は、DataFrameをreduce
することです。これにより、DataFrameに変換して戻すことができる単一の行が得られますが、これには1つのレコードしか含まれていないため、あまり意味がありません。
sparkContext.parallelize(
Seq(
df.reduce {
(a, b) => if (a.getAs[Int]("timestamp") > b.getAs[Int]("timestamp")) a else b
} match {case Row(value:Int,timestamp:Int) => (value,timestamp)}
)
)
.toDF("value","timestamp")
.show
+-----+---------+
|value|timestamp|
+-----+---------+
| 18| 10|
+-----+---------+
効率が低下します(シャッフルが必要なため)。
df
.where($"timestamp" === df.groupBy().agg(max($"timestamp")).map(_.getInt(0)).collect.head)
タイムスタンプ列が一意で昇順の場合、次の方法で最後の行を取得します
println(df.sort($"timestamp", $"timestamp".desc).first())
// Output [1,1]
df.sort($"timestamp", $"timestamp".desc).take(1).foreach(println)
// Output [1,1]
df.where($"timestamp" === df.count()).show
出力:
+-----+---------+
|value|timestamp|
+-----+---------+
| 18| 10|
+-----+---------+
そうでない場合、インデックスで新しい列を作成し、以下のように最後のインデックスを選択します
val df1 = spark.sqlContext.createDataFrame(
df.rdd.zipWithIndex.map {
case (row, index) => Row.fromSeq(row.toSeq :+ index)
},
StructType(df.schema.fields :+ StructField("index", LongType, false)))
df1.where($"timestamp" === df.count()).drop("index").show
出力:
+-----+---------+
|value|timestamp|
+-----+---------+
| 18| 10|
+-----+---------+
Java:
Dataset<Row> sortDF = inputDF.orderBy(org.Apache.spark.sql.functions.col(config.getIncrementingColumn()).desc());
Row row = sortDF.first()
この関数を使用することもできます desc :Column desc(String columnName)
df.orderBy(desc("value")).show(1)
同じ結果が得られます
df.orderBy($"value".desc).show(1)