sparkローカルで実行していて、リモートHadoopクラスターにあるHiveテーブルにアクセスしたい。
SPARK_HOMEでビーラインを呼び出して、Hiveテーブルにアクセスできます。
[ml@master spark-2.0.0]$./bin/beeline
Beeline version 1.2.1.spark2 by Apache Hive
beeline> !connect jdbc:Hive2://remote_Hive:10000
Connecting to jdbc:Hive2://remote_Hive:10000
Enter username for jdbc:Hive2://remote_Hive:10000: root
Enter password for jdbc:Hive2://remote_Hive:10000: ******
SLF4J: Class path contains multiple SLF4J bindings.
SLF4J: Found binding in [jar:file:/home/ml/spark/spark-2.0.0/jars/slf4j-log4j12-1.7.16.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: Found binding in [jar:file:/usr/hadoop/share/hadoop/common/lib/slf4j-log4j12-1.7.10.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation.
SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory]
16/10/12 19:06:39 INFO jdbc.Utils: Supplied authorities: remote_Hive:10000
16/10/12 19:06:39 INFO jdbc.Utils: Resolved authority: remote_Hive:10000
16/10/12 19:06:39 INFO jdbc.HiveConnection: Will try to open client transport with JDBC Uri: jdbc:Hive2://remote_Hive:10000
Connected to: Apache Hive (version 1.2.1000.2.4.2.0-258)
Driver: Hive JDBC (version 1.2.1.spark2)
Transaction isolation: TRANSACTION_REPEATABLE_READ
0: jdbc:Hive2://remote_Hive:10000>
sparkからプログラムでリモートHiveテーブルにアクセスするにはどうすればよいですか?
Sparkは、HiveServer2経由ではなく、Hiveメタストアに直接接続します。これを構成するには、
classpath
に_Hive-site.xml
_を配置し、Hiveメタストアがホストされている場所に_Hive.metastore.uri
_ sを指定します。 SparkSQLでプログラムでHiveメタストアに接続する方法 も参照してください。
Hiveテーブルに対してSQLクエリを実行できるため、_org.Apache.spark.sql.Hive.HiveContext
_をインポートします。
val sqlContext = new org.Apache.spark.sql.Hive.HiveContext(sc)
を定義
sqlContext.sql("show tables")
を検証して、動作するかどうかを確認します
ご覧ください Apache spark Apache Hiveとリモートで接続します。
Beelineもjdbcを介して接続することに注意してください。あなたのログから、それは明らかです。
[ml @ master spark-2.0.0] $。/ bin/beeline Beelineバージョン1.2.1.spark2 by Apache Hive beeline>!connect jdbc:Hive2:// remote_Hive:10000
jdbc:Hive2:// remote_Hive:10000への接続
ぜひご覧ください 興味深い記事
現在、HiveServer2ドライバーでは「スパークリング」メソッド1および2を使用できません。メソッド3のみに依存できます
以下は、コードスニペットの例ですが、それを実現できます
1つのHadoopクラスター(別名「リモート」)から別のHadoopクラスターへのデータのロード(my Spark lives aka "domestic") HiveServer2 JDBC接続を介して
_import Java.sql.Timestamp
import scala.collection.mutable.MutableList
case class StatsRec (
first_name: String,
last_name: String,
action_dtm: Timestamp,
size: Long,
size_p: Long,
size_d: Long
)
val conn: Connection = DriverManager.getConnection(url, user, password)
val res: ResultSet = conn.createStatement
.executeQuery("SELECT * FROM stats_201512301914")
val fetchedRes = MutableList[StatsRec]()
while(res.next()) {
var rec = StatsRec(res.getString("first_name"),
res.getString("last_name"),
Timestamp.valueOf(res.getString("action_dtm")),
res.getLong("size"),
res.getLong("size_p"),
res.getLong("size_d"))
fetchedRes += rec
}
conn.close()
val rddStatsDelta = sc.parallelize(fetchedRes)
rddStatsDelta.cache()
// Basically we are done. To check loaded data:
println(rddStatsDelta.count)
rddStatsDelta.collect.take(10).foreach(println)
_
Hive-ste.xml設定をSPARK=に提供した後、およびHive Metastoreサービスを開始した後、
2つのことをする必要があります設定済み in SPARK= Hiveへの接続中のセッション:
何かのようなもの:
SparkSession spark=SparkSession.builder().appName("Spark_SQL_5_Save To Hive").enableHiveSupport().getOrCreate();
spark.sparkContext().conf().set("spark.sql.warehouse.dir", "/user/Hive/warehouse");
spark.sparkContext().conf().set("Hive.metastore.uris", "thrift://localhost:9083");
これがお役に立てば幸いです!!