web-dev-qa-db-ja.com

Pysparkラウンド機能の問題

Pysparkのラウンド関数を動作させるのに問題があります-new_bid列を小数点以下2桁に丸め、その後列をbidに変更しようとしているコードのブロックがあります-pyspark.sql.functions AS funcを参照用にインポートし、それに含まれるround関数を使用しています。

output = output.select(col("ad").alias("ad_id"),
                       col("part").alias("part_id"),
                       func.round(col("new_bid"), 2).alias("bid"))

ここのnew_bid列はfloat型です-結果のデータフレームには、新しい名前のbid列が小数点以下2桁に丸められていません。 。

私はさまざまなことを試してみましたが、結果のデータフレームに丸みのある値を持たせることはできないようです-ポインタは大歓迎です!ありがとう!

7
dave

いくつかのおもちゃのデータを使用してそれを行う方法は次のとおりです。

spark.version
# u'2.2.0'

import pyspark.sql.functions as func

df = spark.createDataFrame(
        [(0.0, 0.2, 3.45631),
         (0.4, 1.4, 2.82945),
         (0.5, 1.9, 7.76261),
         (0.6, 0.9, 2.76790),
         (1.2, 1.0, 9.87984)],
         ["col1", "col2", "col3"])

df.show()
# +----+----+-------+ 
# |col1|col2|   col3|
# +----+----+-------+
# | 0.0| 0.2|3.45631| 
# | 0.4| 1.4|2.82945|
# | 0.5| 1.9|7.76261| 
# | 0.6| 0.9| 2.7679| 
# | 1.2| 1.0|9.87984| 
# +----+----+-------+

# round 'col3' in a new column:
df2 = df.withColumn("col4", func.round(df["col3"], 2)).withColumnRenamed("col4","new_col3")
df2.show()
# +----+----+-------+--------+ 
# |col1|col2|   col3|new_col3|
# +----+----+-------+--------+
# | 0.0| 0.2|3.45631|    3.46|
# | 0.4| 1.4|2.82945|    2.83|
# | 0.5| 1.9|7.76261|    7.76|
# | 0.6| 0.9| 2.7679|    2.77|
# | 1.2| 1.0|9.87984|    9.88|
# +----+----+-------+--------+

# round & replace existing 'col3':
df3 = df.withColumn("col3", func.round(df["col3"], 2))
df3.show()
# +----+----+----+ 
# |col1|col2|col3| 
# +----+----+----+ 
# | 0.0| 0.2|3.46| 
# | 0.4| 1.4|2.83| 
# | 0.5| 1.9|7.76| 
# | 0.6| 0.9|2.77| 
# | 1.2| 1.0|9.88| 
# +----+----+----+ 

個人的な好みですが、私はcolaliasも好きではありません-代わりにwithColumnwithColumnRenamedが好きです。それでも、selectcolに固執したい場合は、次のように独自のコードスニペットを調整する必要があります。

from pyspark.sql.functions import col

df4 = df.select(col("col1").alias("new_col1"), 
                col("col2").alias("new_col2"), 
                func.round(df["col3"],2).alias("new_col3"))
df4.show()
# +--------+--------+--------+ 
# |new_col1|new_col2|new_col3| 
# +--------+--------+--------+
# |     0.0|     0.2|    3.46|
# |     0.4|     1.4|    2.83|
# |     0.5|     1.9|    7.76|
# |     0.6|     0.9|    2.77|
# |     1.2|     1.0|    9.88|
# +--------+--------+--------+

PS質問に関連するインポートだけでなく、いくつかのサンプルデータと望ましい結果を提供することは常に良い考えです- どのようにすればよい質問をすることができますか? .

14
desertnaut