web-dev-qa-db-ja.com

Apache OozieとApache Airflowのどちらを選ぶべきですか?比較が必要

私はジョブスケジューラが初めてで、ビッグデータクラスターでジョブを実行するために探していました。利用可能な選択肢にかなり混乱しました。 Oozieには、TWS、Autosysなどの既存の制限に比べて多くの制限があることがわかりました。

OozieとAirflowの比較ポイントが必要です。

あなたの助けに感謝。

16
Vishal786btc

私の経験では、Airflowは現在最高のデータパイプラインです。複雑で長時間実行されるワークフローの管理に最適です。 UIとモジュール性は最高です。

気流

  • + Python DAGのコード
  • +すべての主要なサービス/クラウドプロバイダー用のコネクタを備えています
  • +より汎用性の高い
  • +高度なメトリック
  • +より良いUIとAPI
  • +非常に複雑なワークフローを作成可能
  • +ジンジャテンプレート
  • + Tensorflow Extendedエコシステムのオーケストレータとして使用可能
  • =並列化可能
  • = HDFS、Hive、PIGなどへのネイティブ接続。
  • = DAGとしてのグラフ

Oozie

  • --- JavaまたはDAGのXML
  • -複雑なパイプラインを構築するのが難しい
  • -より小さく、活動性の低いコミュニティ
  • -最悪のWEB GUI
  • -Java API
  • =並列化可能
  • = HDFS、Hive、PIGなどへのネイティブ接続。
  • = DAGとしてのグラフ

ご覧のとおり、Airflowは使いやすく(特に大規模なheteregenoeusチームで)、Oozieよりも汎用性が高く強力なオプションです。

私が言ったように:エアフローに行きます。

興味深い記事