ここに私が物事をどのように設定しているかという点でのいくつかの箇条書きがあります:
ジョブを再実行すると、(予想どおり)redshiftで行が重複します。ただし、新しいデータを挿入する前に、キーを使用して、または接着剤で設定されたパーティションを使用して、行を置換または削除する方法はありますか?
import sys
from awsglue.transforms import *
from awsglue.utils import getResolvedOptions
from pyspark.context import SparkContext
from awsglue.context import GlueContext
from awsglue.job import Job
from awsglue.dynamicframe import DynamicFrame
from awsglue.transforms import SelectFields
from pyspark.sql.functions import lit
## @params: [TempDir, JOB_NAME]
args = getResolvedOptions(sys.argv, ['TempDir','JOB_NAME'])
sc = SparkContext()
glueContext = GlueContext(sc)
spark = glueContext.spark_session
job = Job(glueContext)
job.init(args['JOB_NAME'], args)
columnMapping = [
("id", "int", "id", "int"),
("name", "string", "name", "string"),
]
datasource1 = glueContext.create_dynamic_frame.from_catalog(database = "db01", table_name = "table01", transformation_ctx = "datasource0")
applymapping1 = ApplyMapping.apply(frame = datasource1, mappings = columnMapping, transformation_ctx = "applymapping1")
resolvechoice1 = ResolveChoice.apply(frame = applymapping1, choice = "make_cols", transformation_ctx = "resolvechoice1")
dropnullfields1 = DropNullFields.apply(frame = resolvechoice1, transformation_ctx = "dropnullfields1")
df1 = dropnullfields1.toDF()
data1 = df1.withColumn('platform', lit('test'))
data1 = DynamicFrame.fromDF(data1, glueContext, "data_tmp1")
## Write data to redshift
datasink1 = glueContext.write_dynamic_frame.from_jdbc_conf(frame = data1, catalog_connection = "Test Connection", connection_options = {"dbtable": "table01", "database": "db01"}, redshift_tmp_dir = args["TempDir"], transformation_ctx = "datasink1")
job.commit()
これは、AWS Glueサポートから得たソリューションでした:
ご存知かもしれませんが、主キーは作成できますが、Redshiftは一意性を強制しません。したがって、Glueジョブを再実行している場合、重複した行が挿入される可能性があります。一意性を維持する方法のいくつかは次のとおりです。
ステージングテーブルを使用してすべての行を挿入し、メインテーブルにアップサート/マージ[1]を実行します。これは接着剤の外側で行う必要があります。
タイムスタンプの挿入など、redshiftテーブル[1]に別の列を追加して、重複を許可しますが、最初または最後の列を認識し、必要に応じて後で重複を削除します。
以前に挿入したデータをデータフレームにロードし、挿入するデータを比較して、重複を挿入しないようにします[3]
[1]- http://docs.aws.Amazon.com/redshift/latest/dg/c_best-practices-upsert.html および http://www.silota.com/blog/Amazon-redshift-upsert-support-staging-table-replace-rows /
[2]- https://github.com/databricks/spark-redshift/issues/238
[3]- https://docs.databricks.com/spark/latest/faq/join-two-dataframes-duplicated-column.html
ジョブのブックマークがキーです。ジョブを編集して「ジョブブックマーク」を有効にするだけで、既に処理されたデータは処理されません。古いデータを再処理する必要がないことを検出する前に、ジョブを1回再実行する必要があることに注意してください。
詳細については、以下を参照してください。 http://docs.aws.Amazon.com/glue/latest/dg/monitor-continuations.html
私の意見では、「ブックマーク」という名前は少し遠慮がちです。私が検索中に偶然それを見つけなければ、私はそれを見たことはなかっただろう。
this answerを確認してください。ステージングテーブルを使用してデータをRedshiftにアップサートする方法の説明とコードサンプルがあります。同じ方法を使用して、Glueがpreactions
およびpostactions
オプションを使用してデータを書き込む前または後にSQLクエリを実行できます。
// Write data to staging table in Redshift
glueContext.getJDBCSink(
catalogConnection = "redshift-glue-connections-test",
options = JsonOptions(Map(
"database" -> "conndb",
"dbtable" -> staging,
"overwrite" -> "true",
"preactions" -> "<another SQL queries>",
"postactions" -> "<some SQL queries>"
)),
redshiftTmpDir = tempDir,
transformationContext = "redshift-output"
).writeDynamicFrame(datasetDf)
今日、私はテストし、JDBC接続を使用してターゲットテーブルを更新/削除する回避策を得ました。
私は以下のように使用しました
import sys
from awsglue.transforms import *
from awsglue.utils import getResolvedOptions
from pyspark.context import SparkContext
from awsglue.context import GlueContext
from awsglue.job import Job
import pg8000
args = getResolvedOptions(sys.argv, [
'JOB_NAME',
'PW',
'Host',
'USER',
'DB'
])
# ...
# Create Spark & Glue context
sc = SparkContext()
glueContext = GlueContext(sc)
spark = glueContext.spark_session
job = Job(glueContext)
job.init(args['JOB_NAME'], args)
# ...
config_port = ****
conn = pg8000.connect(
database=args['DB'],
user=args['USER'],
password=args['PW'],
Host=args['Host'],
port=config_port
)
query = "UPDATE table .....;"
cur = conn.cursor()
cur.execute(query)
conn.commit()
cur.close()
query1 = "DELETE AAA FROM AAA A, BBB B WHERE A.id = B.id"
cur1 = conn.cursor()
cur1.execute(query1)
conn.commit()
cur1.close()
conn.close()
Glueのジョブブックマークオプションは、上記のようにトリックを行う必要があります。私のソースがS3であるとき、私はそれを正常に使用しています。 http://docs.aws.Amazon.com/glue/latest/dg/monitor-continuations.html
(同じシナリオでの)私のテストでは、ブックマーク機能は機能していません。ジョブが複数回実行されると、重複データが挿入されます。 S3の場所からファイルを毎日(ラムダ経由で)削除し、ステージングテーブルとターゲットテーブルを実装することで、この問題を解決しました。データは、一致するキー列に基づいて挿入/更新されます。