なぜApache-Spark-Pythonパンダに比べてローカルで遅いのですか？

Question

A Spark newbieここ。最近、次のコマンドを使用して、2つのコア上のローカルマシンでSpark

pyspark --master local[2]

100万行近くの393Mbテキストファイルがあります。データ操作操作を実行したかった。 PySparkの組み込みデータフレーム関数を使用して、groupBy、sum、max、stddevなどの簡単な操作を実行しています。

ただし、まったく同じデータセットでpandasでまったく同じ操作を行うと、pandasはレイテンシの点でpysparkを大幅に上回るようです。

私はこの理由として何が考えられるのだろうと思っていました。私はいくつかの考えがあります。

見てくれてありがとう。大変感謝いたします。

user9366962 · Accepted Answer

なぜなら：

Apache Sparkは、正確性とフォールトトレランスを確保しながら、数百のノードに処理を分散するように設計された複雑なフレームワークです。これらの各プロパティにはかなりのコストがかかります。
純粋なインメモリインコア処理（パンダ）は、ディスクおよびネットワーク（ローカルでも）I/O（スパーク）よりも桁違いに速いためです。
並列処理（および分散処理）は大きなオーバーヘッドを追加するため、最適な（厄介な並列ワークロード）であっても、パフォーマンスの向上は保証されません。
ローカルモードはパフォーマンスのために設計されていないためです。テストに使用されます。
最後になりましたが-393MBで実行される2つのコアは、パフォーマンスの改善を確認するには不十分であり、単一ノードでは配布の機会が提供されません
また、スパーク：コアのスケーリング数で一貫性のないパフォーマンス数、列の最大値を見つけるのにpysparkが非常に遅いのはなぜですか？、なぜSpark純粋なPythonよりも実行速度が遅い？パフォーマンスの比較

このように長く続けることができます...