-1

S3 や HDFS などの分散ファイル システムにデータ (ユーザー イベント) が保存されているとします。ユーザーイベントは、日付ごとにディレクトリに保存されます。

ケース 1 Spark ジョブが 1 日分のデータを読み取る必要があるとします。私の理解では、単一のスパークジョブがその日のディレクトリからデータを読み取り、ブロックごとにデータを読み取り、計算のためにクラスターをスパークするデータを提供します。そのブロックごとの読み取りプロセスはシーケンシャルになりますか?

ケース 2 Spark ジョブが 1 日以上 (たとえば 2 日間) データを読み取る必要があると考えてください。別々のディレクトリから読み取ったデータを並行して実行できるように、2 つの別々の spark プロセス (またはスレッド) を開始する必要がありますか?

4

1 に答える 1