Apache SparkとSpark-SQLを使用した経験があります。最近、Apache Drillプロジェクトを見つけました。それらの最も重要な利点/違いは何ですか?すでに読んでいます。 Fast Hadoop Analytics(Cloudera Impala vs Spark/Shark vs Apache Drill) しかし、このトピックはまだ私にはわかりません。
これが私が出くわしたSQLテクノロジーのいくつかについて論じている記事です: http://www.zdnet.com/article/sql-and-hadoop-its-complicated/
ドリルは、ユーザーエクスペリエンスとアーキテクチャの両方で根本的に異なります。例えば:
ドリル1.0がリリースされました(2015年5月19日)。ラップトップに簡単にダウンロードして、インフラストラクチャ(Hadoop、NoSQLなど)なしで遊ぶことができます。
ドリルは、ANSISQLを使用してさまざまな種類のデータセットをクエリする機能を提供します。これにより、アドホックデータの探索や、ODBCを介したBIツールのデータセットへの接続に最適です。さまざまな種類のデータセットにDrillto SQLJOINを使用することもできます。たとえば、MySQLテーブルのレコードをJSONファイル、CSVファイル、OpenTSDB、またはMapR-DBの行と結合できます...リストは続きます。ドリルは、さまざまな種類のデータに接続できます。
Sparkを使用することを考えるとき、私は通常、RDD(復元力のある分散データセット)に使用したいと考えています。 RDDを使用すると、大量のデータを簡単にすばやく処理できます。 Sparkには、MLとストリーミング用のライブラリも多数あります。Drillはデータをまったく処理しません。データにアクセスするだけです。Drillを使用してデータをSparkにプルするか、 Tensorflow、PySpark、Tableauなど。
Apache Spark-SQL:
Apacheドリル: