sparkをクラスターモードで実行し、JDBCを介してRDBMSからデータを読み取っています。
Spark docs のように、これらのパーティション化パラメーターは、複数のワーカーから並列に読み取るときにテーブルをパーティション化する方法を記述します。
partitionColumn
lowerBound
upperBound
numPartitions
これらはオプションのパラメータです。
これらを指定しないとどうなりますか?
{partitionColumn
、lowerBound
、upperBound
、numPartitions
}、または{predicates
}のいずれも指定しない場合Sparkは、単一のエグゼキュータを使用し、単一の空でないパーティションを作成します。すべてのデータは単一のトランザクションを使用して処理され、読み取りは分散も並列化もされません。
参照: