Spark version 1.2.では、subtract
を2つのSchemRDD
sと共に使用して、最初のコンテンツとは異なるコンテンツのみを作成できます。
val onlyNewData = todaySchemaRDD.subtract(yesterdaySchemaRDD)
onlyNewData
には、todaySchemRDD
に存在しないyesterdaySchemaRDD
の行が含まれます。
SparkバージョンのDataFrames
バージョン1.3.でこれをどのように実現できますか?
api docs によると、次のようにします。
dataFrame1.except(dataFrame2)
dataFrame1の行を含むが、dataframe2の行を含まない新しいDataFrameを返します。
Pysparkでは DOCS 減算されます
df1.subtract(df2)
減算しようとしましたが、結果は一貫していませんでした。 df1.subtract(df2)
を実行すると、結果データフレームにdf1のすべての行が表示されるわけではありません。おそらく、ドキュメントで引用されているdistinct
が原因です。
これで私の問題が解決しました:df1.exceptAll(df2)