私は Hadoop、MapReduce、ビッグ データに不慣れで、私が取り組んでいるプロジェクトにとって非常に興味深い特定のユース ケースの実行可能性を評価しようとしています。ただし、達成したいことが A) 可能か、B) MapReduce モデルで推奨されるかはわかりません。
基本的に、大量のウィジェット (既知のデータ構造) と価格設定モデル (JAR ファイルで成文化) があり、ウィジェットと価格設定モデルのすべての組み合わせを実行して、全体の価格設定の結果を決定できるようにしたいと考えています。モデルの順列。価格モデル自体が各ウィジェットを調べ、モデル内の決定木に基づいて価格を決定します。
これは、コモディティ インフラストラクチャの観点からは並列処理に意味がありますが、技術的な観点からは、MR ジョブ内で外部モデルを実行できるかどうか、実用的な観点からは、ユース ケースを強制しようとしているかどうかはわかりません。技術に。
したがって、問題は可能になります。この方法で実装することは理にかなっていますか? そうでない場合、このシナリオにより適した他のオプション/パターンは何ですか?
EDIT 時間の経過とともにボリュームとバリエーションが増えます。ここでの議論のために、現在、数テラバイトのウィジェットと数十の価格モデルがあると仮定します。その後、数テラバイトや数百の価格モデルに成長し、ウィジェットが変更または追加されたり、価格モデルの新しいカテゴリが導入されたりすると、順列の実行が頻繁に発生することが予想されます。