Spark Dataframeの最初の1000行を取得する方法はありますか？

Question

randomSplit関数を使用して、開発目的で使用する少量のデータフレームを取得していますが、この関数によって返される最初のdfを取得するだけです。

val df_subset = data.randomSplit(Array(0.00000001, 0.01), seed = 12345)(0)

df.take(1000)を使用すると、データフレームではなく行の配列になりますので、それはうまくいきません。

Dfの最初の1000行を別のdfとして保存するより良い、簡単な方法はありますか？

Markon · Accepted Answer

探しているメソッドは。limit です。

最初のn行を取得して、新しいデータセットを返します。この関数とheadの違いは、headは配列を返し、limitは新しいデータセットを返すことです。