web-dev-qa-db-ja.com

なぜApache-Spark-Pythonパンダに比べてローカルで遅いのですか?

A Spark newbieここ。最近、次のコマンドを使用して、2つのコア上のローカルマシンでSpark

pyspark --master local[2]

100万行近くの393Mbテキストファイルがあります。データ操作操作を実行したかった。 PySparkの組み込みデータフレーム関数を使用して、groupBysummaxstddevなどの簡単な操作を実行しています。

ただし、まったく同じデータセットでpandasでまったく同じ操作を行うと、pandasはレイテンシの点でpysparkを大幅に上回るようです。

私はこの理由として何が考えられるのだろうと思っていました。私はいくつかの考えがあります。

  1. 組み込み関数は、シリアル化/逆シリアル化のプロセスを非効率的にしますか?はいの場合、それらに代わるものは何ですか?
  2. データセットが小さすぎて、sparkが実行されている基盤となるJVMのオーバーヘッドコストを超えることはできませんか?

見てくれてありがとう。大変感謝いたします。

25
Raj

なぜなら:

このように長く続けることができます...

41
user9366962