私は現在、それぞれ MongoDB と Apache Cassandra のいくつかのプロジェクトに取り組んでいます。私もSolrを頻繁に使用しており、「大量の」データ(約1〜2 TB)を処理しています。 Greenplum と Vertica は先週初めて聞いたことがありますが、脳のどこに置くのかよくわかりません。それらは私にはデータウェアハウス(DWH)ソリューションのように見え、私は実際にはDWHを使用していません。そして、彼らはたくさんのお金がかかるようです(例えば、Greenplumの1TBストレージで6万ドル)。私は現在Petabyteのデータを処理しておらず、そうしないと思いますが、cassandraのような製品もこれを処理できるようです
Cassandraは、テラバイトまたはペタバイトのデータに快適にスケーリングすることに関して、認められたNoSQLリーダーです。
だから私の質問:なぜ人々はGreenplum&Coを使うべきなのでしょうか?これらの他の製品と比較して大きな利点はありますか?
ありがとう。
Cassandra、Greenplum、Verticaはすべて大量のデータを処理しますが、その方法は大きく異なります。
各データベースに長所があるユースケースを構成するものもあります。
cassandra for:
tweets.insert(key:user, data:blob);
tweets.get(key:user)
次の目的でgreenplumを使用します。
begin;
update account set balance = balance - 10 where account_id = 1;
update account set balance = balance + 10 where account_id = 2;
commit;
Verticaを次の目的で使用します。
select sum(balance)
over (partition by region order by account rows unbounded preceding)
from transactions;
私は電気通信業界で働いています。大規模なデータセットと複雑なEDW(エンタープライズデータウェアハウス)モデルを扱っています。Teradataから始めて、数年間は問題ありませんでした。その後、データは指数関数的に増加し、ご存知のように、Teradataでの拡張にはコストがかかります。そこで、EMC、つまりグリーンプラム、Oracle exadata、hp Vertica、IBMnettezaを評価しました。
スピード的には、20のレポートの生成は次のようになりました:1。Vertica、2。Netteza、3。greenPlum、4。Oracle
圧縮比:Verticaには自然な利点がありました。とりわけIBMも優れています。ベンチマークによると最悪ののはemcとOracleです。いつものように、どちらも大量のストレージとハードウェアを販売したいと考えています。
スケーラビリティ:すべてがうまくスケーリングします。
読み込み時間:ここではemcが最適ですが、その他(teradata、Vertica、Oracle、IBM)も優れています。
同時ユーザークエリ:Vertica、emc、green Plum、次にIBMのみ。 Oracle exadataは、どのタイプのクエリケースでも比較的低速ですが、旧式の10gよりもはるかに優れています。
価格:Teradata> Oracle> IBM> HP> EMC
注:AppleをAppleと比較する必要があります。コア、RAM、データボリューム、レポートの数は同じです。
ハードウェアに依存しない価格設定モデル、低価格設定、および優れたパフォーマンスのためにVerticaを選択しました。これで、40人以上のユーザー全員が待たずにレポートを生成でき、すべてが低コストのhpdl380サーバーに適合します。これは、olap/edwのユースケースに最適です。
この分析はすべて、edw/analytics/olapの場合のみを対象としています。私は今でも、あらゆるハードウェアまたはシステム上のすべてのoltp、リッチplsql、接続性などのOracleファンです。 Exadataはまともな混合ワークロードを提供しますが、価格/パフォーマンス比が不合理であり、10gコードをexadataのベストプラクティス(MMPのようなもの、一括処理など)に移行する必要があり、主張するよりも時間がかかります。
私たちはHadoopで4年間、Verticaで2年間働いています。MySQLのテーブルで、読み込みとインデックス作成に大きな問題がありました。私たちは、自家製のシャーディングソリューションでヒュームを実行していました。より洗練されたシャーディングソリューションの開発に多額の投資をすることもできましたが、それは非常に苦痛でした。 SQLデータベースに保持するために絶対に必要なデータについてもっと深く考えることができたはずです。
しかし、結局のところ、MySQLからVerticaへの切り替えが私たちが選んだものでした。 Verticaのパフォーマンスパターンは、独自の頭痛の種を伴うMySQLのパフォーマンスパターンとはかなり異なります。しかし、それは非常に迅速に大量のデータをロードすることができ、MySQLの頭を回転させるようなヘビーデューティークエリに適しています。
私の見方では、Verticaは、すでにSQLに投資していて、より強力なSQLデータベースが必要な場合のソリューションです。私は専門家ではないので、統合の労力や金銭的コストの観点からも、Verticaと比較してOracleまたはDB2への移行がどのようなものであったかを説明できませんでした。
Verticaは、私たちがほとんど調べていない多くの機能を提供します。それらは、私たちとは異なるユースケースを持つ他の人にとって非常に魅力的かもしれません。
私はVerticaDBAであり、それ以前はVerticaの開発者でした。 Michael Stonebreaker(Ingres、Vertica、およびその他のデータベースの背後にいる男)には、聞く価値のあるNoSQLの批評がいくつかあります。
基本的に、Verticaの利点は次のとおりです。
他の商品とは話せませんが、大丈夫だと思います。
編集:ストーンブレーカーからの話です: http://www.slideshare.net/Dataversity/newsql-vs-nosql-for- new-oltp-michael-stonebraker-voltdb
Pivotal(以前のGreenplum)は、EMC、VMware、およびGEからの資金が豊富なスピンオフです。 Pivotalの市場は、複雑な分析と高速ETLを必要とするマルチペタバイトサイズのデータベースを持つ企業(およびHomeland Cybersecurityエージェンシー)です。 GreenplumのOriginは、Map ReducedMPP用に再設計されたPostgreSQLDBであり、後で列指向サポートとHDFS用に追加されています。これは、SQLとNoSQLの最高のものを組み合わせてNewSQLを作成します。
特徴:
MySQLやOracleのような行データベース、InfobrightやVerticaのような列指向DB、NoSQLバリアントやHadoopをいつ使用するかについては多くの混乱があります。どのテクノロジーがどのユースケースに最も適しているかを整理するためにホワイトペーパーを作成しました-ダウンロード 新しいデータベースランドスケープ (半分下にスクロール)または オンデマンドでスクロール)同じトピックに関するウェビナー 。
どちらかがあなたに役立つことを願っています