apache-spark - 分散ファイルシステムからの読み取りをスパークしますか?

翻译自：https://stackoverflow.com/questions/59703224 2020-01-12T11:14:12.737

174 次

-1

S3 や HDFS などの分散ファイルシステムにデータ (ユーザーイベント) が保存されているとします。ユーザーイベントは、日付ごとにディレクトリに保存されます。

ケース 1 Spark ジョブが 1 日分のデータを読み取る必要があるとします。私の理解では、単一のスパークジョブがその日のディレクトリからデータを読み取り、ブロックごとにデータを読み取り、計算のためにクラスターをスパークするデータを提供します。そのブロックごとの読み取りプロセスはシーケンシャルになりますか?

ケース 2 Spark ジョブが 1 日以上 (たとえば 2 日間) データを読み取る必要があると考えてください。別々のディレクトリから読み取ったデータを並行して実行できるように、2 つの別々の spark プロセス (またはスレッド) を開始する必要がありますか?

apache-spark - 分散ファイル システムからの読み取りをスパークしますか?

1 に答える 1

Related

Reference

apache-spark - 分散ファイルシステムからの読み取りをスパークしますか?