ドキュメントで_literal column
_として定義されているlit
値を使用する必要がある場所を理解しようとしています。
たとえば、SQL列配列のインデックスを返す次のudf
を見てください。
_def find_index(column, index):
return column[index]
_
これに整数を渡すと、エラーが発生します。配列の正しいインデックスを取得するには、lit(n)
値をudfに渡す必要があります。
lit
およびおそらくcol
を使用する場合のハードで速いルールをよりよく学ぶことができる場所はありますか?
簡単な例:
df.withColumn("columnName", lit(Column_Value ))
例:
df = df.withColumn("Today's Date", lit(datetime.now()))
しかし、最初のインポートライブラリ:pyspark.sql.functions import litから