Spark using Scala

Question

私はtrainというデータフレームを持っています、彼は次のスキーマを持っています：

root |-- date_time: string (nullable = true) |-- site_name: integer (nullable = true) |-- posa_continent: integer (nullable = true)

date_timecolumnをtimestampにキャストし、date_timecolumnから抽出されたyear値を使用して新しい列を作成したいと思います。

明確にするために、私は次のデータフレームを持っています：

+-------------------+---------+--------------+ | date_time|site_name|posa_continent| +-------------------+---------+--------------+ |2014-08-11 07:46:59| 2| 3| |2014-08-11 08:22:12| 2| 3| |2015-08-11 08:24:33| 2| 3| |2016-08-09 18:05:16| 2| 3| |2011-08-09 18:08:18| 2| 3| |2009-08-09 18:13:12| 2| 3| |2014-07-16 09:42:23| 2| 3| +-------------------+---------+--------------+

次のデータフレームを取得したい：

+-------------------+---------+--------------+--------+ | date_time|site_name|posa_continent|year | +-------------------+---------+--------------+--------+ |2014-08-11 07:46:59| 2| 3|2014 | |2014-08-11 08:22:12| 2| 3|2014 | |2015-08-11 08:24:33| 2| 3|2015 | |2016-08-09 18:05:16| 2| 3|2016 | |2011-08-09 18:08:18| 2| 3|2011 | |2009-08-09 18:13:12| 2| 3|2009 | |2014-07-16 09:42:23| 2| 3|2014 | +-------------------+---------+--------------+--------+

zero323 · Accepted Answer

date_timecolumnをtimestampにキャストし、年の値で新しい列を作成するを実行する場合は、次のようにします。

import org.Apache.spark.sql.functions.year df .withColumn("date_time", $"date_time".cast("timestamp")) // cast to timestamp .withColumn("year", year($"date_time")) // add year column

Carlos Vilchez · Answer

データフレームをマップして、各行の最後に年を追加できます。

df.map { case Row(col1: String, col2: Int, col3: Int) => (col1, col2, col3, DateTime.parse(col1, DateTimeFormat.forPattern("yyyy-MM-dd HH:mm:ss")).getYear) }.toDF("date_time", "site_name", "posa_continent", "year").show()