私は次のpython/pandasコマンドを持っています:
df.groupby('Column_Name').agg(lambda x: x.value_counts().max()
DataFrameGroupBy
オブジェクトのすべての列の値のカウントを取得しています。
PySparkでこのアクションを実行するにはどうすればよいですか?
それは多かれ少なかれ同じです:
_spark_df.groupBy('column_name').count().orderBy('count')
_
GroupByでは、_,
_で区切られた複数の列を持つことができます
たとえばgroupBy('column_1', 'column_2')
groupByがgroupbyキーを受け取る順序のようなものがありますか(左から右、右から左など)。グループ化の順序を理解しようとする(それがどのように行われるか)。たとえば、最初に来る国、州、町を持っている場合、グループキーの順序で指定しますか、それとも単に階層に従ってグループ化しますか