randomSplit
関数を使用して、開発目的で使用する少量のデータフレームを取得していますが、この関数によって返される最初のdfを取得するだけです。
val df_subset = data.randomSplit(Array(0.00000001, 0.01), seed = 12345)(0)
df.take(1000)
を使用すると、データフレームではなく行の配列になりますので、それはうまくいきません。
Dfの最初の1000行を別のdfとして保存するより良い、簡単な方法はありますか?
探しているメソッドは 。limit です。
最初のn行を取得して、新しいデータセットを返します。この関数とheadの違いは、headは配列を返し、limitは新しいデータセットを返すことです。