Teradataに触れました。私はHadoopに触れたことがありませんが、昨日からそれについていくつかの調査を行っています。両方の説明から、それらはかなり交換可能に見えますが、いくつかの論文では、それらは異なる目的に役立つと書かれています。しかし、私が見つけたのは漠然としたものだけです。私は混乱しています。
誰かがそれらの両方を経験したことがありますか?それらの重大な違いは何ですか?
簡単な例:数十億行の生データを変換してDWHに編成するETLを構築したいと思います。次に、それらに対していくつかのリソースの高価な分析を行います。なぜTDを使用するのですか?なぜHadoopなのか?またはなぜですか?
この記事 「MapReduceとParallel DBMS:Friends or Foes」というタイトルは、各テクノロジーが最適に機能する状況を説明するのに非常に役立ちます。一言で言えば、Hadoopは、非構造化データを格納し、並列変換を実行して受信データを「サニタイズ」するのに優れています。DBMSは複雑なクエリをすばやく実行します。
私はこの分野の専門家ではありませんが、coursera.comコースのIntroduction to Data Scienceには、「MapReduceとデータベースの比較」というタイトルの講義と、コースのマップリデュースセクション内の並列データベースに関する講義があります。
MapReduceとRDBMS(必ずしも並列RDMBSである必要はありません)の比較に関するこれらの講義の要約を次に示します。覚えておくべき1つのポイントは、PIGやHiveなどのHadoopの拡張機能を含めると、比較が異なることです。これらの機能/プロパティの一部を追加する()MapReduce拡張機能を追加します。
RDBMSにはあるがネイティブのMapReduceにはないいくつかの機能/プロパティ:
MapReduce(通常のRDBMSと比較して必ずしも並列RDMBSではありません)
まず、Vanilla Apache Hadoopは100%オープンソースです。ただし、コンサルタントと一緒に商用サポートが必要な場合は、Cloudera、MapR、HortonWorksなどの企業があります。
Hadoopは、バグを修正し、一貫して改善を行うコミュニティの成長に支えられています。 HadoopストレージモデルHDFSは、大量のデータを処理することが証明されているGoogleの [〜#〜] gfs [〜#〜] アーキテクチャに基づいています。さらに、Hadoop分析モデルのMapReduceはGoogleの MapReduceモデル に基づいています。
Hadoopは、Facebook、Yahoo、Twitter、EBayなどのTech Giantsによって使用され、大量のデータをリアルタイムで受動的に保存および分析します。
あなたの質問のためにETLシステムはこれらを読んでください スライド あなたが見るところ。
では、なぜHadoopなのですか?
さて、なぜTDなのですか?
私は何度かこの質問をされましたが、私が通常与える答えは車の例えです(私は車の人ではないのでかなりばかげていますが、うまくいくようです)
言い換えると、Teradataは、ミッションクリティカルなプロセス(運用レポート、エンタープライズレポート、意思決定支援など)を配置する信頼性の高い主力製品です。 Hadoopは、このようなことをたくさん実行できる場所ですが、ある朝に来て、誰かがパッチを適用したか、突然「あまりにも」を取得したために規制レポートを作成できないことに気付いても驚かないでください。多くの小さなファイル」の問題。
アナロジーに戻ると、あまり技術的になりたくなく、メーカーの製品(dbmsやcar)が箱から出してすぐに機能する場合は、Teradataが適しています。一方、ボンネットの下でいじくり回したい場合は、キャブレター(またはその他)を交換し、ギア比を調整し、国または都市のどちらで運転しているかに応じて空燃比を微調整し、ターボチャージャーをボルトで固定します。またはあなたの家族はあなたが週末にガレージで過ごす時間について不平を言います-Hadoopはあなたのための場所です。
私見、すべてではないにしてもほとんどの組織が両方を必要としています。これがお役に立てば幸いです:-)