Spark2パッケージ2.2.0でHDP-2.6.3.0を使用します。
構造化ストリーミングAPIを使用してKafkaコンシューマーを記述しようとしていますが、ジョブをクラスターに送信した後に次のエラーが表示されます。
Exception in thread "main" Java.lang.ClassNotFoundException: Failed to find data source: kafka. Please find packages at http://spark.Apache.org/third-party-projects.html
at org.Apache.spark.sql.execution.datasources.DataSource$.lookupDataSource(DataSource.scala:553)
at org.Apache.spark.sql.execution.datasources.DataSource.providingClass$lzycompute(DataSource.scala:89)
at org.Apache.spark.sql.execution.datasources.DataSource.providingClass(DataSource.scala:89)
at org.Apache.spark.sql.execution.datasources.DataSource.sourceSchema(DataSource.scala:198)
at org.Apache.spark.sql.execution.datasources.DataSource.sourceInfo$lzycompute(DataSource.scala:90)
at org.Apache.spark.sql.execution.datasources.DataSource.sourceInfo(DataSource.scala:90)
at org.Apache.spark.sql.execution.streaming.StreamingRelation$.apply(StreamingRelation.scala:30)
at org.Apache.spark.sql.streaming.DataStreamReader.load(DataStreamReader.scala:150)
at com.example.KafkaConsumer.main(KafkaConsumer.Java:21)
at Sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
at Sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.Java:62)
at Sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.Java:43)
at Java.lang.reflect.Method.invoke(Method.Java:498)
at org.Apache.spark.deploy.SparkSubmit$.org$Apache$spark$deploy$SparkSubmit$runMain(SparkSubmit.scala:782)
at org.Apache.spark.deploy.SparkSubmit$.doRunMain$1(SparkSubmit.scala:180)
at org.Apache.spark.deploy.SparkSubmit$.submit(SparkSubmit.scala:205)
at org.Apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:119)
at org.Apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)
Caused by: Java.lang.ClassNotFoundException: kafka.DefaultSource
at Java.net.URLClassLoader.findClass(URLClassLoader.Java:381)
at Java.lang.ClassLoader.loadClass(ClassLoader.Java:424)
at Java.lang.ClassLoader.loadClass(ClassLoader.Java:357)
at org.Apache.spark.sql.execution.datasources.DataSource$anonfun$22$anonfun$apply$14.apply(DataSource.scala:537)
at org.Apache.spark.sql.execution.datasources.DataSource$anonfun$22$anonfun$apply$14.apply(DataSource.scala:537)
at scala.util.Try$.apply(Try.scala:192)
at org.Apache.spark.sql.execution.datasources.DataSource$anonfun$22.apply(DataSource.scala:537)
at org.Apache.spark.sql.execution.datasources.DataSource$anonfun$22.apply(DataSource.scala:537)
at scala.util.Try.orElse(Try.scala:84)
at org.Apache.spark.sql.execution.datasources.DataSource$.lookupDataSource(DataSource.scala:537)
... 17 more
フォロー中spark-submit
コマンド:
$SPARK_HOME/bin/spark-submit \
--master yarn \
--deploy-mode client \
--class com.example.KafkaConsumer \
--executor-cores 2 \
--executor-memory 512m \
--driver-memory 512m \
sample-kafka-consumer-0.0.1-SNAPSHOT.jar
My Javaコード:
package com.example;
import org.Apache.spark.sql.Dataset;
import org.Apache.spark.sql.Row;
import org.Apache.spark.sql.SparkSession;
public class KafkaConsumer {
public static void main(String[] args) {
SparkSession spark = SparkSession
.builder()
.appName("kafkaConsumerApp")
.getOrCreate();
Dataset<Row> ds = spark
.readStream()
.format("kafka")
.option("kafka.bootstrap.servers", "dog.mercadoanalitico.com.br:6667")
.option("subscribe", "my-topic")
.load();
}
}
pom.xml:
<project xmlns="http://maven.Apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.Apache.org/POM/4.0.0 http://maven.Apache.org/xsd/maven-4.0.0.xsd">
<modelVersion>4.0.0</modelVersion>
<groupId>com.example</groupId>
<artifactId>sample-kafka-consumer</artifactId>
<version>0.0.1-SNAPSHOT</version>
<packaging>jar</packaging>
<dependencies>
<!-- spark -->
<dependency>
<groupId>org.Apache.spark</groupId>
<artifactId>spark-core_2.11</artifactId>
<version>2.2.0</version>
</dependency>
<dependency>
<groupId>org.Apache.spark</groupId>
<artifactId>spark-sql_2.11</artifactId>
<version>2.2.0</version>
</dependency>
<dependency>
<groupId>org.Apache.spark</groupId>
<artifactId>spark-sql-kafka-0-10_2.11</artifactId>
<version>2.2.0</version>
</dependency>
<!-- kafka -->
<dependency>
<groupId>org.Apache.kafka</groupId>
<artifactId>kafka_2.11</artifactId>
<version>0.10.1.0</version>
</dependency>
</dependencies>
<repositories>
<repository>
<id>local-maven-repo</id>
<url>file:///${project.basedir}/local-maven-repo</url>
</repository>
</repositories>
<build>
<!-- Include resources folder in the .jar -->
<resources>
<resource>
<directory>${basedir}/src/main/resources</directory>
</resource>
</resources>
<plugins>
<!-- Plugin to compile the source. -->
<plugin>
<groupId>org.Apache.maven.plugins</groupId>
<artifactId>maven-compiler-plugin</artifactId>
<version>3.6.1</version>
<configuration>
<source>1.8</source>
<target>1.8</target>
</configuration>
</plugin>
<!-- Plugin to include all the dependencies in the .jar and set the main class. -->
<plugin>
<groupId>org.Apache.maven.plugins</groupId>
<artifactId>maven-shade-plugin</artifactId>
<version>3.0.0</version>
<executions>
<execution>
<phase>package</phase>
<goals>
<goal>shade</goal>
</goals>
<configuration>
<filters>
<!-- This filter is to workaround the problem caused by included signed jars.
Java.lang.SecurityException: Invalid signature file digest for Manifest main attributes
-->
<filter>
<artifact>*:*</artifact>
<excludes>
<exclude>META-INF/*.SF</exclude>
<exclude>META-INF/*.DSA</exclude>
<exclude>META-INF/*.RSA</exclude>
</excludes>
</filter>
</filters>
<transformers>
<transformer
implementation="org.Apache.maven.plugins.shade.resource.ManifestResourceTransformer">
<mainClass>com.example.KafkaConsumer</mainClass>
</transformer>
</transformers>
</configuration>
</execution>
</executions>
</plugin>
</plugins>
</build>
</project>
[UPDATE] UBER-JAR
Uber-jarを生成するためにpom.xmlで使用される構成の下
<plugin>
<groupId>org.Apache.maven.plugins</groupId>
<artifactId>maven-shade-plugin</artifactId>
<version>3.0.0</version>
<executions>
<execution>
<phase>package</phase>
<goals>
<goal>shade</goal>
</goals>
<configuration>
<filters>
<!-- This filter is to workaround the problem caused by included signed jars.
Java.lang.SecurityException: Invalid signature file digest for Manifest main attributes
-->
<filter>
<artifact>*:*</artifact>
<excludes>
<exclude>META-INF/*.SF</exclude>
<exclude>META-INF/*.DSA</exclude>
<exclude>META-INF/*.RSA</exclude>
</excludes>
</filter>
</filters>
<transformers>
<transformer
implementation="org.Apache.maven.plugins.shade.resource.ManifestResourceTransformer">
<mainClass>com.example.KafkaConsumer</mainClass>
</transformer>
</transformers>
</configuration>
</execution>
</executions>
</plugin>
kafka
データソースは external モジュールであり、Sparkアプリケーションではデフォルトで使用できません。
pom.xml
で依存関係として定義する必要がありますが(これは既に行ったとおりです)、これはSpark=アプリケーションで使用するための最初のステップです。
<dependency>
<groupId>org.Apache.spark</groupId>
<artifactId>spark-sql-kafka-0-10_2.11</artifactId>
<version>2.2.0</version>
</dependency>
その依存関係を使用すると、すべての依存関係を完全にバンドルするいわゆるuber-jarを作成するかどうかを決定する必要があります(かなり大きなjarファイルが作成され、提出時間を長くするか、--packages
(または柔軟性の低い--jars
)オプションを使用して、spark-submit
時に依存関係を追加します。
(必要なjarをHadoop HDFSに保存する、またはSparkアプリケーションの依存関係を定義するHadoopディストリビューション固有の方法を使用するなどのオプションがありますが、簡単にしましょう)
--packages
を最初に使用することをお勧めします。それが機能する場合にのみ、他のオプションを検討してください。
spark-submit --packages
を使用して、次のようにspark-sql-kafka-0-1モジュールを含めます。
spark-submit --packages org.Apache.spark:spark-sql-kafka-0-10_2.11:2.2.0
必要に応じて、他のコマンドラインオプションを含めます。
いわゆるber-jarにすべての依存関係を含めると、META-INF
ディレクトリの処理方法が原因で、常に機能するとは限りません。
kafka
データソース(および他の一般的なデータソース)が機能するには、すべてのデータソースのMETA-INF/services/org.Apache.spark.sql.sources.DataSourceRegister
がmerged(replace
やfirst
などではなく、使用する戦略)であることを確認する必要があります。
kafka
データソースは独自の META-INF/services/org.Apache.spark.sql.sources.DataSourceRegister を使用します org.Apache.spark.sql.kafka010.KafkaSourceProviderkafka
形式のデータソースプロバイダーとして。
私も同様の問題を抱えていましたが、Cloudera-Sparkバージョンを2.2-> 2.3からアップグレードしたときに問題が始まりました。
問題は:私のuber jar META-INF/serives/org.Apache.spark.sql.sources.DataSourceRegisterは、他のjarに存在する同様のファイルによって上書きされていました。そのため、「DataSourceRegister」ファイルでKafkaConsumerエントリを見つけることができませんでした。
解像度: POM.xmlの変更が助けになりました。
<configuration>
<transformers>
<transformer
implementation="org.Apache.maven.plugins.shade.resource.AppendingTransformer">
<resource>
META-INF/services/org.Apache.spark.sql.sources.DataSourceRegister
</resource>
</transformer>
</transformers>
Uber-jarの場合、 ServicesResourceTransformer をshade-pluginに追加すると機能します。
<transformers>
<transformer implementation="org.Apache.maven.plugins.shade.resource.ServicesResourceTransformer"/>
</transformers>