scala - Spark と Scala の並列処理について

Question

Spark と Scala の並列処理について混乱しています。ディスクから多くの（csv）ファイルを読み取り、特定の列を変更/処理してから、ディスクに書き戻す必要がある実験を実行しています。

私の実験では、SparkContext の parallelize メソッドのみを使用した場合、パフォーマンスに影響はないようです。ただし、Scala の並列コレクション (par を介して) を使用するだけで、時間がほぼ半分に短縮されます。

spark コンテキストの引数 local[2] を使用して、localhost モードで実験を実行しています。

私の質問は、いつ scala の並列コレクションを使用する必要があり、いつ Spark コンテキストの並列化を使用する必要があるかということです。

score 5 · Accepted Answer

SparkContext は、複数のノードの一般性をサポートするために追加の処理を行います。これはデータサイズに対して一定であるため、巨大なデータセットでは無視できる場合があります。1 つのノードでは、このオーバーヘッドにより、Scala の並列コレクションよりも遅くなります。

次の場合に Spark を使用します。

複数のノードがあります
ジョブを複数のノードにスケーリングできるようにしたい
データが巨大であるため、1 つのノードでの Spark のオーバーヘッドは無視できるほど小さいため、よりリッチなフレームワークを選択することもできます。

score 3 · Accepted Answer

SparkContext の並列化により、コレクションが複数のノードでの処理に適したものになる可能性があります。また、単一のワーカーインスタンス ( local[2] ) の複数のローカルコアでの処理にも適しています。マジック。もちろん、Scala の並列コレクションは、単一のマシンでより高速になるはずです。

http://spark.incubator.apache.org/docs/latest/scala-programming-guide.html#parallelized-collections - ファイルは自動的に複数のスライスに分割されるのに十分な大きさですか?手動でスライス数を設定しようとしましたか?

シングルコアで同じ Spark ジョブを実行してから、2 つのコアで実行しようとしましたか?

複数の小さなファイルを使用するのではなく、非常に大きな均一に構造化された 1 つのファイルを使用して、Spark から最良の結果を期待してください。

scala - Spark と Scala の並列処理について

2 に答える 2

Related

Reference