A Spark newbieここ。最近、次のコマンドを使用して、2つのコア上のローカルマシンでSpark
pyspark --master local[2]
100万行近くの393Mbテキストファイルがあります。データ操作操作を実行したかった。 PySparkの組み込みデータフレーム関数を使用して、groupBy
、sum
、max
、stddev
などの簡単な操作を実行しています。
ただし、まったく同じデータセットでpandasでまったく同じ操作を行うと、pandasはレイテンシの点でpysparkを大幅に上回るようです。
私はこの理由として何が考えられるのだろうと思っていました。私はいくつかの考えがあります。
見てくれてありがとう。大変感謝いたします。
なぜなら:
このように長く続けることができます...