私はStormに取り組んできましたが、Sparkですが、Samzaはまったく新しいものです。
Stormがリアルタイム処理のためにすでに存在するときにSamzaが導入された理由がわかりません。Sparkはメモリにほぼリアルタイムの処理を提供し、他の非常に便利なコンポーネントがありますgraphxおよびmllibとして。
Samzaがもたらす改善とは何ですか?さらにどのような改善が可能ですか?
This は、違いと長所と短所の良い要約です。
サムザは、実際にはそれの新しいものではなく、Kafkaをバックエンドとして、他の人は単純さを犠牲にしてより一般的にしようとします。Samzaは、Kafkaを作成したのと同じ人々によって開拓されました。 カッパアーキテクチャ -主に元LinkedInのJayKrepsです。それはかなりクールです。
また、プログラミングモデルは、Samzaを使用したリアルタイムストリーム、Sparkストリーミング(Sparkとはまったく同じではありません)のマイクロバッチ)、およびStormのタプルを使用した注ぎ口とボルトの間でまったく異なります。
これらのどれも「より良い」ものではありません。それはすべて、ユースケース、チームの強み、APIがメンタルモデルとどのように一致するか、サポートの品質などによって異なります。
また、Stormが失敗し始めたために作成した Apache Flink とTwitterの Heron も忘れました。繰り返しになりますが、Twitterの規模で操作する必要があるものはほとんどありません。