SparkのJDBC接続を介してSQL Serverからデータをフェッチしているときに、partitionColumn
、lowerBound
、upperBound
、およびnumPartitions
などの並列化パラメーターを設定できることがわかりました。 spark documentation を通り抜けましたが、理解できませんでした。
誰でもこれらのパラメーターの意味を説明できますか?
それは単純だ:
partitionColumn
は、パーティションを決定するために使用される列です。lowerBound
およびupperBound
は、フェッチする値の範囲を決定します。完全なデータセットは、次のクエリに対応する行を使用します。
SELECT * FROM table WHERE partitionColumn BETWEEN lowerBound AND upperBound
numPartitions
は、作成するパーティションの数を決定します。 lowerBound
とupperBound
の間の範囲は、それぞれが等しいストライドを持つnumPartitions
に分割されます。
upperBound / numPartitions - lowerBound / numPartitions
例:
lowerBound
:0upperBound
:1000numPartitions
:10
ストライドは100に等しく、パーティションは次のクエリに対応します。
SELECT * FROM table WHERE partitionColumn BETWEEN 0 AND 100
SELECT * FROM table WHERE partitionColumn BETWEEN 100 AND 200
...
SELECT * FROM table WHERE partitionColumn BETWEEN 900 AND 1000
実際、上記のリストはいくつかのこと、特に最初と最後のクエリを逃しています。
それらがないと、いくつかのデータ(lowerBound
の前とupperBound
の後のデータ)が失われます。下限が0であるため、この例からは明らかではありません。
完全なリストは次のとおりです。
SELECT * FROM table WHERE partitionColumn < 100
SELECT * FROM table WHERE partitionColumn BETWEEN 0 AND 100
SELECT * FROM table WHERE partitionColumn BETWEEN 100 AND 200
...
SELECT * FROM table WHERE partitionColumn > 9000
パーティションを作成しても、フィルタリングによりデータが失われることはありません。 upperBound
、lowerbound
とともにnumPartitions
は、パーティションの作成方法を定義するだけです。 upperBound
およびlowerbound
は、取得するpartitionColumnの値の範囲(フィルター)を定義しません。
For a given input of lowerBound (l), upperBound (u) and numPartitions (n)
The partitions are created as follows:
stride, s= (u-l)/n
**SELECT * FROM table WHERE partitionColumn < l+s or partitionColumn is null**
SELECT * FROM table WHERE partitionColumn >= l+s AND <2s
SELECT * FROM table WHERE partitionColumn >= l+2s AND <3s
...
**SELECT * FROM table WHERE partitionColumn >= l+(n-1)s**
たとえば、upperBound = 500
、lowerBound = 0
およびnumPartitions = 5
。パーティションは次のクエリのとおりです。
SELECT * FROM table WHERE partitionColumn < 100 or partitionColumn is null
SELECT * FROM table WHERE partitionColumn >= 100 AND <200
SELECT * FROM table WHERE partitionColumn >= 200 AND <300
SELECT * FROM table WHERE partitionColumn >= 300 AND <400
...
SELECT * FROM table WHERE partitionColumn >= 400
partitionColumn
の実際の値の範囲に応じて、各パーティションの結果サイズは異なります。
確認済みの回答に追加したいのは言葉なので、
それらがなければ、いくつかのデータを失うでしょうは誤解を招きます。
ドキュメントから、lowerBoundとupperBoundはパーティションストライドを決定するためだけに使用され、テーブル内の行をフィルタリングするためではないことに注意してください。そのため、テーブル内のすべての行がパーティション分割されて返されます。このオプションは読み取りにのみ適用されます。
つまり、テーブルには1100行あり、次のように指定します。
lowerBound
0
upperBound
1000および
numPartitions
:10、1000〜1100行を失うことはありません。代わりに、意図したよりも多くの行を持つパーティションの一部になります(ストライド値は100です)。