私は以下のようなシーンを持っています:
Task 1
およびTask 2
ソーステーブル(Athena)で新しいデータを利用できる場合のみ。 Task1とTask2のトリガーは、新しいデータパーティションが1日に発生したときに発生します。Task 3
完了時のみTask 1
およびTask 2
Task 4
完了のみTask 3
マイコード
from airflow import DAG
from airflow.contrib.sensors.aws_glue_catalog_partition_sensor import AwsGlueCatalogPartitionSensor
from datetime import datetime, timedelta
from airflow.operators.postgres_operator import PostgresOperator
from utils import FAILURE_EMAILS
yesterday = datetime.combine(datetime.today() - timedelta(1), datetime.min.time())
default_args = {
'owner': 'airflow',
'depends_on_past': False,
'start_date': yesterday,
'email': FAILURE_EMAILS,
'email_on_failure': False,
'email_on_retry': False,
'retries': 1,
'retry_delay': timedelta(minutes=5)
}
dag = DAG('Trigger_Job', default_args=default_args, schedule_interval='@daily')
Athena_Trigger_for_Task1 = AwsGlueCatalogPartitionSensor(
task_id='athena_wait_for_Task1_partition_exists',
database_name='DB',
table_name='Table1',
expression='load_date={{ ds_nodash }}',
timeout=60,
dag=dag)
Athena_Trigger_for_Task2 = AwsGlueCatalogPartitionSensor(
task_id='athena_wait_for_Task2_partition_exists',
database_name='DB',
table_name='Table2',
expression='load_date={{ ds_nodash }}',
timeout=60,
dag=dag)
execute_Task1 = PostgresOperator(
task_id='Task1',
postgres_conn_id='REDSHIFT_CONN',
sql="/sql/flow/Task1.sql",
params={'limit': '50'},
trigger_rule='all_success',
dag=dag
)
execute_Task2 = PostgresOperator(
task_id='Task2',
postgres_conn_id='REDSHIFT_CONN',
sql="/sql/flow/Task2.sql",
params={'limit': '50'},
trigger_rule='all_success',
dag=dag
)
execute_Task3 = PostgresOperator(
task_id='Task3',
postgres_conn_id='REDSHIFT_CONN',
sql="/sql/flow/Task3.sql",
params={'limit': '50'},
trigger_rule='all_success',
dag=dag
)
execute_Task4 = PostgresOperator(
task_id='Task4',
postgres_conn_id='REDSHIFT_CONN',
sql="/sql/flow/Task4",
params={'limit': '50'},
dag=dag
)
execute_Task1.set_upstream(Athena_Trigger_for_Task1)
execute_Task2.set_upstream(Athena_Trigger_for_Task2)
execute_Task3.set_upstream(execute_Task1)
execute_Task3.set_upstream(execute_Task2)
execute_Task4.set_upstream(execute_Task3)
それを達成するための最良の最適な方法は何ですか?
あなたの質問は2つの主要な問題に対処していると思います。
schedule_interval
_を明示的に設定するのを忘れているため、@ dailyは予期しないものを設定しています。短い答え:cronジョブ形式を使用してschedule_intervalを明示的に設定し、センサーオペレーターを使用して時々チェックします
_default_args={
'retries': (endtime - starttime)*60/poke_time
}
dag = DAG('Trigger_Job', default_args=default_args, schedule_interval='0 10 * * *')
Athena_Trigger_for_Task1 = AwsGlueCatalogPartitionSensor(
....
poke_time= 60*5 #<---- set a poke_time in seconds
dag=dag)
_
ここで、startime
は毎日のタスクを開始する時間、endtime
は、イベントに失敗のフラグを付ける前にイベントが行われたかどうかを確認する必要がある最後の時間で、_poke_time
_は_sensor_operator
_がイベントが発生したかどうかを確認する間隔。
cronジョブに明示的に対処する方法dagを_@daily
_のように設定するときはいつでもあなたがした:
_dag = DAG('Trigger_Job', default_args=default_args, schedule_interval='@daily')
_
docs から、実際にやっていることがわかります:_@daily - Run once a day at midnight
_
これは、タイムアウトエラーが発生する理由になり、_'retries': 1
_と'retry_delay': timedelta(minutes=5)
を設定したため、5分後に失敗します。したがって、真夜中にDAGを実行しようとすると失敗します。 5分後に再び再試行して失敗するため、失敗としてフラグが立てられます。
したがって、基本的に@daily runは次の暗黙のcronジョブを設定します。
_@daily -> Run once a day at midnight -> 0 0 * * *
_
Cronジョブの形式は以下の形式で、「すべて」と言いたいときは常に値を_*
_に設定します。
_Minute Hour Day_of_Month Month Day_of_Week
_
つまり、@ dailyは基本的にこれを次の間隔で実行すると言っています:すべてのdays_of_weekのすべての月のすべてのdays_of_monthの0分0
したがって、ケースは次の間隔で実行されます:すべてのdays_of_weekのall_monthsのすべてのdays_of_monthの分0時間10。これはcronジョブ形式で次のように変換されます。
_0 10 * * *
_
外部イベントに依存して実行を完了するときに、DAGの実行をトリガーして再試行する方法
コマンド_airflow trigger_dag
_を使用して、外部イベントからエアフローのダグをトリガーできます。これは、何らかの方法でラムダ関数をトリガーできる場合に可能です/ pythonスクリプトでairflowインスタンスをターゲットにする.
外部でDAGをトリガーできない場合は、OPのようなセンサーオペレーターを使用して、poke_timeをそれに設定し、適切な再試行回数を設定します。