Windowを使用してin Sparkでrow_number()
partitionBy
を正常に作成しましたが、デフォルトの昇順ではなく降順でソートしたいです。私の作業コードです:
from pyspark import HiveContext
from pyspark.sql.types import *
from pyspark.sql import Row, functions as F
from pyspark.sql.window import Window
data_cooccur.select("driver", "also_item", "unit_count",
F.rowNumber().over(Window.partitionBy("driver").orderBy("unit_count")).alias("rowNum")).show()
それは私にこの結果を与えます:
+------+---------+----------+------+
|driver|also_item|unit_count|rowNum|
+------+---------+----------+------+
| s10| s11| 1| 1|
| s10| s13| 1| 2|
| s10| s17| 1| 3|
そして、ここで降順の順序にdesc()を追加します。
data_cooccur.select("driver", "also_item", "unit_count", F.rowNumber().over(Window.partitionBy("driver").orderBy("unit_count").desc()).alias("rowNum")).show()
そして、このエラーを取得します:
AttributeError: 'WindowSpec'オブジェクトには属性 'desc'がありません
ここで何が間違っていますか?
desc
は、ウィンドウ定義ではなく列に適用する必要があります。列で次のいずれかの方法を使用できます。
from pyspark.sql.functions import col
F.rowNumber().over(Window.partitionBy("driver").orderBy(col("unit_count").desc())
またはスタンドアロン関数:
from pyspark.sql.functions import desc
F.rowNumber().over(Window.partitionBy("driver").orderBy(desc("unit_count"))
または、Spark-SQLでSQLコードを使用できます。
from pyspark.sql import SparkSession
spark = SparkSession\
.builder\
.master('local[*]')\
.appName('Test')\
.getOrCreate()
spark.sql("""
select driver
,also_item
,unit_count
,ROW_NUMBER() OVER (PARTITION BY driver ORDER BY unit_count DESC) AS rowNum
from data_cooccur
""").show()
更新実際、私はこれをさらに調べてみましたが、うまくいかないようです。 (実際にはエラーがスローされます)。動作しなかった理由は、このコードをDatabricksのdisplay()
の呼び出しの下に置いていたためです(display()
呼び出しの後のコードは実行されません)。データフレームのorderBy()
とwindow
のorderBy()
は実際には同じではないようです。否定的な確認のためだけにこの回答を続けます
PySpark 2.4(およびおそらくそれ以前)の時点で、キーワード_ascending=False
_をorderBy
呼び出しに追加するだけで機能します。
例.
personal_recos.withColumn("row_number", F.row_number().over(Window.partitionBy("COLLECTOR_NUMBER").orderBy("count", ascending=False)))
そして
personal_recos.withColumn("row_number", F.row_number().over(Window.partitionBy("COLLECTOR_NUMBER").orderBy(F.col("count").desc())))
私に同じ行動を与えているようです。