完全なデータウェアハウススタックをセットアップするために、無料または無料の試用版を備えたこれらのオープンソースツールを探しています。
Pentaho オープンソースのモンドリアンサーバーのようなものはほとんど知っていますが、完全なプラットフォームをセットアップするためのグーグルの結果を得ることができませんでした。これらのコンポーネントが相互に互換性があるかどうかわかりませんか?誰かがチェーン内の位置と一緒にそれらをリストしてくれますか?
Open Source Data Warehousing は、データウェアハウススタックの構築に使用できるOSSコンポーネント(インフラストラクチャ(サーバー、OS、データベース)、統合管理(ETL、EAIなど)、情報管理(DW/Mart/ODS、OLapサーバーなど)、情報配信(ポータル、ダッシュボード、分析/ OLAPクライアントなど)。概要は次のとおりです。
オープンソースのBI/DWプロジェクト
BIと分析
- BEE- http://bee.insightstrategy.cz/en/index.html
- BIRT- http://www.Eclipse.org/birt
- JasperSoft – http://www.jaspersoft.com
- MarvelIT- http://www.marvelit.com/dash.html
- OpenI – http://openi.sourceforge.net
- OpenReports – http://oreports.com
- オレンジ- http://www.ailab.si/orange
- パロ– http://www.palo.net
- ペンタホ- http://www.pentaho.com
- R- http://www.r-project.org
- SpagoBI – http://spagobi.eng.it
- Weka- http://www.cs.waikato.ac.nz/~ml/index.html
- VitalSigns- http://vitalsigns.sourceforge.net/
データベース
- http://greenplum.org (bizgres)
- http://www.Ingres.com
- http://www.mysql.com
- http://www.postgresql.org
- http://www.enterprisedb.com
統合
- Apatar- http://www.apatar.com
- CloverETL- http://cloveretl.berlios.de/
- JitterBit- http://www.jitterbit.com/
- KETL- http://www.ketl.org
- タコ- http://www.enhydra.org/tech/octopus/index.html
- OSDQ- http://sourceforge.net/projects/dataquality
- ペンタホ- http://www.pentaho.com
- Red Hat – http://www.redhat.com
- Saga.M31 Galaxy- http://galaxy.sagadc.com
- Talend- http://www.talend.com
- SnapLogic – http://www.snaplogic.com
プレゼンテーションを閲覧することをお勧めします。良いもの。
データウェアハウススタック(またはスイート)は通常、3つの層で構成されます。これらは通常、ETL
(ロード)、Database
&Reporting
(インターフェイス)として参照されます。さらに、パフォーマンスと専門家のニーズに対応する、より高度なツールがあります。これらはCubes
とStatistical Analysis Tools
で構成されます。
相互運用性に関する限り、ETLツールとレポートツールは、使用しているデータベースをサポートする必要があります。ただし、大きなオープンソースデータベースは2つしかないため、通常は異なるソリューションを混在させても問題はありません。
詳細は-
1-[〜#〜] etl [〜#〜]
データのロードは、PentahoのData IntegrationやTalend(Eclipse拡張機能)などのオープンソースツールによって実現できます。特定のニーズに合わせてソリューションを調整するために、「オープンソースetl」をグーグルで検索することをお勧めします。
2-[〜#〜] db [〜#〜]
リレーショナルデータベース(RDBMS)が必要です。最も有名な2つのオープンソースプレーヤーは、PostgreSQL(Stack Overflowで使用)とMySQLです。 MySQLのユーザーベースは大きいですが、Postgresは以前のバージョンにはなかったいくつかの重要な機能を実装して以来、ますます人気を集めています。
3-レポート
Pentahoはレポートプラットフォームを提供します。 BIRT(別のEclipse拡張機能)も同様です。繰り返しますが、Googleは特定の比較のためのあなたの友達です。 ETLツールとレポートツールの両方にPentahoを選択した場合、より良い統合が得られる可能性が高いことに注意してください。また、RDBMSを介してMDXクエリを生成するツールであるMondrianについても言及しました。 MDXは、キューブを照会するための標準言語です。
この時点で、ゼロから始めることを前提に、データウェアハウスの最初の2層-ETL&DBをセットアップすることをお勧めします。後で上記のレポートツールをいくつでも追加できます。
これは別の同様の質問です 200億行/月-Hbase/Hive/Greenplum/What?
最も重要な部分:
これを十分に強調することはできません。市販のレポートツールでうまく機能するものを入手してください。
。
HiveまたはHBaseを使用すると、カスタムフロントエンドを構築することができます。これは、今後5年間Pythonでカスタムレポートフォーマッタを作成することに満足しない限り、本当に必要ありません。
パスカルが書いたことを拡張する:
OLAPサーバー: モンドリアン
AJAXピボットテーブル: Saik
OLAPスキーマデザイナー: Pentaho Schema Workbench
OLAP集計デザイナー: Pentaho集計デザイナー
ETL: Pentaho Kettle
レポートデザイナー: Pentaho Report Designer
データ品質: DataCleaner
Columnar Data Warehouse: MonetDB
データマイニング: RapidMiner