Sparkデータフレームの行をシャッフルする方法は？

Question

私はこのようなデータフレームを持っています：

+---+---+ |_c0|_c1| +---+---+ |1.0|4.0| |1.0|4.0| |2.1|3.0| |2.1|3.0| |2.1|3.0| |2.1|3.0| |3.0|6.0| |4.0|5.0| |4.0|5.0| |4.0|5.0| +---+---+

また、ScalaではSparkを使用してすべての行をシャッフルしたいと思います。

RDDに戻らずにこれを行うにはどうすればよいですか？

prudenko · Accepted Answer

データフレームのorderByメソッドを使用する必要があります：

import org.Apache.spark.sql.functions.Rand val shuffledDF = dataframe.orderBy(Rand())