Sparkと一緒にSpringを使用する

Question

私はSparkアプリケーションを開発しています。Springに依存性注入フレームワークとして慣れています。今では、処理部分がSpringの@Autowired機能を使用するという問題に悩まされています。ただし、Sparkによってシリアル化および非シリアル化されます。

そのため、次のコードで問題が発生します。

Processor processor = ...; // This is a Spring constructed object // and makes all the trouble JavaRDD<Txn> rdd = ...; // some data for Spark rdd.foreachPartition(processor);

プロセッサは次のようになります。

public class Processor implements VoidFunction<Iterator<Txn>>, Serializeable { private static final long serialVersionUID = 1L; @Autowired // This will not work if the object is deserialized private transient DatabaseConnection db; @Override public void call(Iterator<Txn> txns) { ... // do some fance stuff db.store(txns); } }

だから私の質問は次のとおりです。Sparkと組み合わせてSpringのようなものを使用することさえ可能ですか？そうでない場合、そのようなことを行う最もエレガントな方法は何ですか？どんな助けも大歓迎です！

EpicPandaForce · Accepted Answer

質問者から：Added：独自のクラスを変更せずにデシリアライゼーション部分に直接干渉するには、以下を使用します spring-spark project by parapluplu。このプロジェクトは、春にデシリアライズされたときにBeanを自動配線します。

編集：

Sparkを使用するには、次のセットアップが必要です（ this repository にもあります）：

スプリングブート+スパーク：

。

<parent> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-parent</artifactId> <version>1.5.2.RELEASE</version> <relativePath/> <!-- lookup parent from repository --> </parent>

...

<dependencies> <dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-web</artifactId> <exclusions> <exclusion> <groupId>ch.qos.logback</groupId> <artifactId>logback-classic</artifactId> </exclusion> </exclusions> </dependency> <dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-test</artifactId> <scope>test</scope> </dependency> <!-- https://mvnrepository.com/artifact/org.Apache.spark/spark-core_2.11 --> <dependency> <groupId>org.Apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>2.1.0</version> <exclusions> <exclusion> <groupId>org.slf4j</groupId> <artifactId>slf4j-log4j12</artifactId> </exclusion> <exclusion> <groupId>log4j</groupId> <artifactId>log4j</artifactId> </exclusion> </exclusions> </dependency> <!-- https://mvnrepository.com/artifact/org.Apache.spark/spark-sql_2.11 --> <dependency> <groupId>org.Apache.spark</groupId> <artifactId>spark-sql_2.11</artifactId> <version>2.1.0</version> </dependency> <!-- fix Java.lang.ClassNotFoundException: org.codehaus.commons.compiler.UncheckedCompileException --> <dependency> <groupId>org.codehaus.janino</groupId> <artifactId>commons-compiler</artifactId> <version>2.7.8</version> </dependency> <!-- https://mvnrepository.com/artifact/org.slf4j/log4j-over-slf4j --> <dependency> <groupId>org.slf4j</groupId> <artifactId>log4j-over-slf4j</artifactId> <version>1.7.25</version> </dependency> <dependency> <groupId>org.slf4j</groupId> <artifactId>slf4j-api</artifactId> <version>1.7.5</version> </dependency> <dependency> <groupId>org.slf4j</groupId> <artifactId>slf4j-simple</artifactId> <version>1.6.4</version> </dependency> </dependencies>

次に、Spring Bootでの通常のアプリケーションクラスが必要です。

@SpringBootApplication public class SparkExperimentApplication { public static void main(String[] args) { SpringApplication.run(SparkExperimentApplication.class, args); } }

そして、それをすべて一緒にバインドする構成

@Configuration @PropertySource("classpath:application.properties") public class ApplicationConfig { @Autowired private Environment env; @Value("${app.name:jigsaw}") private String appName; @Value("${spark.home}") private String sparkHome; @Value("${master.uri:local}") private String masterUri; @Bean public SparkConf sparkConf() { SparkConf sparkConf = new SparkConf() .setAppName(appName) .setSparkHome(sparkHome) .setMaster(masterUri); return sparkConf; } @Bean public JavaSparkContext javaSparkContext() { return new JavaSparkContext(sparkConf()); } @Bean public SparkSession sparkSession() { return SparkSession .builder() .sparkContext(javaSparkContext().sc()) .appName("Java Spark SQL basic example") .getOrCreate(); } @Bean public static PropertySourcesPlaceholderConfigurer propertySourcesPlaceholderConfigurer() { return new PropertySourcesPlaceholderConfigurer(); } }

次に、SparkSessionクラスを使用して、Spark SQLと通信します。

/** * Created by achat1 on 9/23/15. * Just an example to see if it works. */ @Component public class WordCount { @Autowired private SparkSession sparkSession; public List<Count> count() { String input = "hello world hello hello hello"; String[] _words = input.split(" "); List<Word> words = Arrays.stream(_words).map(Word::new).collect(Collectors.toList()); Dataset<Row> dataFrame = sparkSession.createDataFrame(words, Word.class); dataFrame.show(); //StructType structType = dataFrame.schema(); RelationalGroupedDataset groupedDataset = dataFrame.groupBy(col("Word")); groupedDataset.count().show(); List<Row> rows = groupedDataset.count().collectAsList();//JavaConversions.asScalaBuffer(words)).count(); return rows.stream().map(new Function<Row, Count>() { @Override public Count apply(Row row) { return new Count(row.getString(0), row.getLong(1)); } }).collect(Collectors.toList()); } }

これらの2つのクラスを参照します。

public class Word { private String Word; public Word() { } public Word(String Word) { this.Word = Word; } public void setWord(String Word) { this.Word = Word; } public String getWord() { return Word; } } public class Count { private String Word; private long count; public Count() { } public Count(String Word, long count) { this.Word = Word; this.count = count; } public String getWord() { return Word; } public void setWord(String Word) { this.Word = Word; } public long getCount() { return count; } public void setCount(long count) { this.count = count; } }

次に、正しいデータが返されることを確認します。

@RequestMapping("api") @Controller public class ApiController { @Autowired WordCount wordCount; @RequestMapping("wordcount") public ResponseEntity<List<Count>> words() { return new ResponseEntity<>(wordCount.count(), HttpStatus.OK); } }

言う

[{"Word":"hello","count":4},{"Word":"world","count":1}]