私たちのスタックはGoogle Data Proc(Spark 2.0)とGoogle BigTable(HBase 1.2.0)で構成されており、これらのバージョンで動作するコネクタを探しています。
Spark 2.0と新しいDataSet APIのサポートは、私が見つけたコネクタに対して私には明確ではありません。
プロジェクトはScala 2.11でSBTで記述されています。
ご協力いただきありがとうございます
Update:SHCはSpark 2およびTable APIで動作するようになりました。- https:/を参照してください。 /github.com/GoogleCloudPlatform/cloud-bigtable-examples/tree/master/scala/bigtable-shc
元の答え:
これら(または他の既存のコネクタ)のどれもが、今日あなたが望むすべてを行うとは思いません。
HAPI MapReduce APIをnewAPIHadoopRDD(またはおそらくspark-hbase-connector?)のようなRDDメソッドで使用することをお勧めします。次に、RDDをDataSetsに手動で変換します。このアプローチは、ScalaまたはJavaのほうがPythonよりもはるかに簡単です。
これはHBaseコミュニティが改善に取り組んでいる領域であり、Google Cloud Dataprocはそれらの改善が発生したときにそれらを組み込みます。
上記の回答に加えて、newAPIHadoopRDD
を使用すると、HBaseからすべてのデータが取得され、それ以降はすべてのコアスパークが発生します。フィルターなどのHBase固有のAPIは取得しません。現在のspark-hbaseでは、スナップショットしか使用できません。