_Spark Version: spark-2.0.1-bin-hadoop2.7 Scala: 2.11.8
_
生のcsvをDataFrameにロードしています。 csvでは、列は日付形式でサポートされていますが、2016-10-25ではなく20161025と記述されています。パラメータ_date_format
_には、yyyy-mm-dd形式に変換する必要のある列名の文字列が含まれています。
次のコードでは、最初にschema
を介してDate列のcsvをStringTypeとしてロードし、次に_date_format
_が空でないかどうかを確認します。つまり、変換する必要のある列があります。 Date
からString
を実行し、_unix_timestamp
_および_to_date
_を使用して各列をキャストします。ただし、csv_df.show()
では、返される行はすべてnull
です。
_def read_csv(csv_source:String, delimiter:String, is_first_line_header:Boolean,
schema:StructType, date_format:List[String]): DataFrame = {
println("|||| Reading CSV Input ||||")
var csv_df = sqlContext.read
.format("com.databricks.spark.csv")
.schema(schema)
.option("header", is_first_line_header)
.option("delimiter", delimiter)
.load(csv_source)
println("|||| Successfully read CSV. Number of rows -> " + csv_df.count() + " ||||")
if(date_format.length > 0) {
for (i <- 0 until date_format.length) {
csv_df = csv_df.select(to_date(unix_timestamp(
csv_df(date_format(i)), "yyyy-MM-dd").cast("timestamp")))
csv_df.show()
}
}
csv_df
}
_
返された上位20行:
_+-------------------------------------------------------------------------+
|to_date(CAST(unix_timestamp(prom_price_date, YYYY-MM-DD) AS TIMESTAMP))|
+-------------------------------------------------------------------------+
| null|
| null|
| null|
| null|
| null|
| null|
| null|
| null|
| null|
| null|
| null|
| null|
| null|
| null|
| null|
| null|
| null|
| null|
| null|
| null|
+-------------------------------------------------------------------------+
_
すべてのnull
を取得するのはなぜですか?
yyyyMMdd
をyyyy-MM-dd
に変換するには、次のことができます。
spark.sql("""SELECT DATE_FORMAT(
CAST(UNIX_TIMESTAMP('20161025', 'yyyyMMdd') AS TIMESTAMP), 'yyyy-MM-dd'
)""")
機能付き:
date_format(unix_timestamp(col, "yyyyMMdd").cast("timestamp"), "yyyy-MM-dd")