web-dev-qa-db-ja.com

MongoDBまたはCassandra)と比較したGreenplumやVerticaなどのデータベースの利点

私は現在、それぞれ MongoDBApache Cassandra のいくつかのプロジェクトに取り組んでいます。私もSolrを頻繁に使用しており、「大量の」データ(約1〜2 TB)を処理しています。 GreenplumVertica は先週初めて聞いたことがありますが、脳のどこに置くのかよくわかりません。それらは私にはデータウェアハウス(DWH)ソリューションのように見え、私は実際にはDWHを使用していません。そして、彼らはたくさんのお金がかかるようです(例えば、Greenplumの1TBストレージで6万ドル)。私は現在Petabyteのデータを処理しておらず、そうしないと思いますが、cassandraのような製品もこれを処理できるようです

Cassandraは、テラバイトまたはペタバイトのデータに快適にスケーリングすることに関して、認められたNoSQLリーダーです。

経由 http://www.datastax.com/why-cassandra

だから私の質問:なぜ人々はGreenplum&Coを使うべきなのでしょうか?これらの他の製品と比較して大きな利点はありますか?

ありがとう。

13
H6.

Cassandra、Greenplum、Verticaはすべて大量のデータを処理しますが、その方法は大きく異なります。

各データベースに長所があるユースケースを構成するものもあります。

cassandra for:

tweets.insert(key:user, data:blob);
tweets.get(key:user)

次の目的でgreenplumを使用します。

begin;
update account set balance = balance - 10 where account_id = 1;
update account set balance = balance + 10 where account_id = 2;
commit;

Verticaを次の目的で使用します。

select sum(balance)
over (partition by region order by account rows unbounded preceding)
from transactions;
43
serbaut

私は電気通信業界で働いています。大規模なデータセットと複雑なEDW(エンタープライズデータウェアハウス)モデルを扱っています。Teradataから始めて、数年間は問題ありませんでした。その後、データは指数関数的に増加し、ご存知のように、Teradataでの拡張にはコストがかかります。そこで、EMC、つまりグリーンプラム、Oracle exadata、hp Vertica、IBMnettezaを評価しました。

スピード的には、20のレポートの生成は次のようになりました:1。Vertica、2。Netteza、3。greenPlum、4。Oracle

圧縮比:Verticaには自然な利点がありました。とりわけIBMも優れています。ベンチマークによると最悪ののはemcとOracleです。いつものように、どちらも大量のストレージとハードウェアを販売したいと考えています。

スケーラビリティ:すべてがうまくスケーリングします。

読み込み時間:ここではemcが最適ですが、その他(teradata、Vertica、Oracle、IBM)も優れています。

同時ユーザークエリ:Vertica、emc、green Plum、次にIBMのみ。 Oracle exadataは、どのタイプのクエリケースでも比較的低速ですが、旧式の10gよりもはるかに優れています。

価格:Teradata> Oracle> IBM> HP> EMC

注:AppleをAppleと比較する必要があります。コア、RAM、データボリューム、レポートの数は同じです。

ハードウェアに依存しない価格設定モデル、低価格設定、および優れたパフォーマンスのためにVerticaを選択しました。これで、40人以上のユーザー全員が待たずにレポートを生成でき、すべてが低コストのhpdl380サーバーに適合します。これは、olap/edwのユースケースに最適です。

この分析はすべて、edw/analytics/olapの場合のみを対象としています。私は今でも、あらゆるハードウェアまたはシステム上のすべてのoltp、リッチplsql、接続性などのOracleファンです。 Exadataはまともな混合ワークロードを提供しますが、価格/パフォーマンス比が不合理であり、10gコードをexadataのベストプラクティス(MMPのようなもの、一括処理など)に移行する必要があり、主張するよりも時間がかかります。

13
Arun

私たちはHadoopで4年間、Verticaで2年間働いています。MySQLのテーブルで、読み込みとインデックス作成に大きな問題がありました。私たちは、自家製のシャーディングソリューションでヒュームを実行していました。より洗練されたシャーディングソリューションの開発に多額の投資をすることもできましたが、それは非常に苦痛でした。 SQLデータベースに保持するために絶対に必要なデータについてもっと深く考えることができたはずです。

しかし、結局のところ、MySQLからVerticaへの切り替えが私たちが選んだものでした。 Verticaのパフォーマンスパターンは、独自の頭痛の種を伴うMySQLのパフォーマンスパターンとはかなり異なります。しかし、それは非常に迅速に大量のデータをロードすることができ、MySQLの頭を回転させるようなヘビーデューティークエリに適しています。

私の見方では、Verticaは、すでにSQLに投資していて、より強力なSQLデータベースが必要な場合のソリューションです。私は専門家ではないので、統合の労力や金銭的コストの観点からも、Verticaと比較してOracleまたはDB2への移行がどのようなものであったかを説明できませんでした。

Verticaは、私たちがほとんど調べていない多くの機能を提供します。それらは、私たちとは異なるユースケースを持つ他の人にとって非常に魅力的かもしれません。

7
kimbo305

私はVerticaDBAであり、それ以前はVerticaの開発者でした。 Michael Stonebreaker(Ingres、Vertica、およびその他のデータベースの背後にいる男)には、聞く価値のあるNoSQLの批評がいくつかあります。

基本的に、Verticaの利点は次のとおりです。

  • 大量のデータではかなり高速です
  • パフォーマンスは他のデータウェアハウジングソリューションと似ていますが(収集できます)、クラスタリングとコモディティハードウェアの利点があります。したがって、コモディティハードウェアを追加することで拡張できます。 TBあたりの全体的なコストの点で安く見えます。 (正確な見積もりではなく、メモリから取得します。)
  • 繰り返しますが、これはデータウェアハウジング用です。
  • 従来のSQLとテーブルを使用できるようになります。違いは内部にあります。

他の商品とは話せませんが、大丈夫だと思います。

編集:ストーンブレーカーからの話です: http://www.slideshare.net/Dataversity/newsql-vs-nosql-for- new-oltp-michael-stonebraker-voltdb

6
geoffrobinson

Pivotal(以前のGreenplum)は、EMC、VMware、およびGEからの資金が豊富なスピンオフです。 Pivotalの市場は、複雑な分析と高速ETLを必要とするマルチペタバイトサイズのデータ​​ベースを持つ企業(およびHomeland Cyber​​securityエージェンシー)です。 GreenplumのOriginは、Map ReducedMPP用に再設計されたPostgreSQLDBであり、後で列指向サポートとHDFS用に追加されています。これは、SQLとNoSQLの最高のものを組み合わせてNewSQLを作成します。

特徴:

  • 2015H1には、GreenplumDBとHAWQを含むほとんどのコードがオープンソースになります。スタックの最上位にある一部の高度な管理およびパフォーマンス機能は、引き続き独自のものになります。
  • MPP(Massively Parallel Processing)シェアードナッシングRDBMSデータベースは、マルチテラバイトからマルチペタバイトの環境向けに設計されています。
  • 完全なSQLコンプライアンス-SQLのすべてのバージョンをサポート:‘92、‘99、2003 OLAPなど。PostgreSQL8.2と100%互換性があります。 •TPC-DSベンチマーク標準で使用される99個のクエリすべてを書き換えることなく処理できるSQLoverHADOOPのみ。競争はそれらの多くを行うことができず、大幅に遅くなります。 SIGMONホワイトペーパー。
  • ACIDコンプライアンス。
  • HDFS、Hive、HBase、Avro、ProtoBuf、区切りテキスト、シーケンスファイルに保存されているデータをサポートします。
  • SQLに埋め込まれた多言語全文検索のためのSolr/Lucene統合。
  • オープンソースソフトウェアを組み込んでいます:Spring、Cloud Foundry、Redis.io、RabbitMQ、Grails、Groovy、Open Chorus、Pig、ZooKeeper、Mahout、MADlib、MapR。これらのいくつかはEBSCOで使用されています。
  • Hadoopで人気のある列ストアのようなテクノロジーであるHBaseへのネイティブ接続。
  • MongoDBへの1億5,000万ドルの投資へのヴイエムウェアの参加は、ペタバイト規模のXMLファイルの統合につながる可能性があります。
  • 分散キーのテーブルごとの指定により、ノードローカル結合とグループバイを利用するようにテーブルスキーマを設計できますが、これがなくても実行されます。
  • 行および/または列指向のデータストレージ。これは、DBAによって定義されているように、テーブルが列ベースのパーティションと行ベースのパーティションの両方でポリモーフィックになることができる唯一のデータベースです。
  • 列ストアテーブルは、ストレージを最適化するためにデータ型ごとに圧縮特性が異なるため、列ごとに異なる圧縮アルゴリズムを持つことができます。
  • Advanced Map-ReduceのようなCBOクエリオプティマイザー–クエリは数十万のノードで実行できます。
  • これは、クエリ処理用の動的分散パイプライン実行モデルを備えた唯一のデータベースです。古いデータベースはマテリアライズされた実行に依存していますが、Greenplumは中間クエリステップごとにデータをディスクに書き込む必要はありません。データをメモリ内のクエリプランの次の段階にストリーミングし、データをディスクにマテリアライズする必要がないため、Hadoopで誰もが実証したものよりもはるかに高速です。
  • 大規模なデータセットに対する複雑なクエリは、数秒または数秒未満で解決されます。
  • データ管理–テーブル統計、テーブルセキュリティを提供します。
  • 深い分析–MADlibを使用したデータマイニングまたは機械学習アルゴリズムを含みます。 GPTextを使用したディープセマンティックテキスト分析。
  • グラフィカル分析-GraphLabを使用した10億のエッジ分散インメモリグラフデータベースとアルゴリズム。
  • SQL、Solrインデックス、GPText、MADlib、GraphLabを単一のクエリに統合して、大規模な構文解析と、詳細な検索分析のためのグラフ/マトリックスアフィニティ分析を実現します。
  • ODBC/JDBCに完全に準拠しています。
  • 16TB /時の分散ETLレート!! Talendとの統合が可能です。
  • クラウドサポート:Pivotalは、Cloud Foundryソフトウェアをパッケージ化して、Amazon WebServicesのEC2を含む他のクラウド上でPivotalをホストするためにも使用できるようにする予定です。重要なデータ管理は、さまざまなクラウド設定で使用でき、独自のVMwareシステムに依存しません。 OpenStack、vSphere、vCloud Director、またはプライベートブランドをターゲットにします。 IBMは、PaaSをCloudFoundryで標準化したと発表しました。 Confluenceページ。
  • 2つのハードウェア「アプライアンス」オファリング:Isilon NAS&GreenplumDCA。
3
Steve Wright

MySQLやOracleのような行データベース、InfobrightやVerticaのような列指向DB、NoSQLバリアントやHadoopをいつ使用するかについては多くの混乱があります。どのテクノロジーがどのユースケースに最も適しているかを整理するためにホワイトペーパーを作成しました-ダウンロード 新しいデータベースランドスケープ (半分下にスクロール)または オンデマンドでスクロール)同じトピックに関するウェビナー

どちらかがあなたに役立つことを願っています

2
SusanIB