apache-spark - 大きなRDDと複数の小さなRDD

Question

過去のデータ:

GRP や CPP などの履歴情報を含むアクティビティごとに複数のテーブルがあります。
アクティビティごとに GRP と CPP が定義されている複数のディメンションがあります。
ディメンション - Geography、TimePeriod、Primary_Message
各アクティビティには、これらのディメンションのサブセットが含まれる場合があります

例

 Activity1 {Geography, TimePeriod, GRP, CPP}

 Activity2 {TimePeriod, GRP, CPP}

 Activity3 {Primary_Message, TimePeriod, GRP, CPP}

使用事例：

すべてのユースケースが効率的に機能するように RDD を設計する必要があります。

どの時点でも、各ジョブは 1 つのアクティビティに対応します。

私には2つの選択肢があります -

アクティビティごとに 1 つの RDD を作成し、そのテーブルのディメンション間で分割します。したがって、アクティビティと同じ数の RDD があります。
ジョブごとに、特定の RDD にアクセスして計算します
すべてのアクティビティに対して 1 つの RDD を作成し、いくつかのディメンションでそれを分割し
ます。ジョブごとに、1 つの大きな RDD にアクセスし、アクティビティの RDD でフィルターを実行し、計算を行います。

私の質問は、ユースケースと仮定を考慮して、RDD を設計するのにどのオプションがより効率的かということです。

ティア！

score 0 · Accepted Answer

単一の RDD の利点は、別のアクティビティタイプ (アクティビティ 4) を追加する作業がほとんどないことです。個別の RDD の利点は、1 つのアクティビティタイプにのみアクセスする場合に、他のタイプのデータを調べる必要がないことです。

あなたがコメントで言うように：

UI では、すべてのアクティビティのデータが表示されます。これを実現するために、複数のジョブ (アクティビティごとに 1 つのジョブ) を実行し、期間全体の値を計算します。

N 個のアクティビティタイプと M 個の合計レコードがある場合、別個の RDD がある場合、M 個のレコードを処理して UI をレンダリングします。単一のRDDがある場合、N×Mレコードを通過します。

1 に答える 1