Spark と Scala の並列処理について混乱しています。ディスクから多くの(csv)ファイルを読み取り、特定の列を変更/処理してから、ディスクに書き戻す必要がある実験を実行しています。
私の実験では、SparkContext の parallelize メソッドのみを使用した場合、パフォーマンスに影響はないようです。ただし、Scala の並列コレクション (par を介して) を使用するだけで、時間がほぼ半分に短縮されます。
spark コンテキストの引数 local[2] を使用して、localhost モードで実験を実行しています。
私の質問は、いつ scala の並列コレクションを使用する必要があり、いつ Spark コンテキストの並列化を使用する必要があるかということです。