私が読んだ小さなことから、Hadoopは次のクラスの問題に最適であることがわかりました。潜在的に多くのノード間で計算を分散することによって1つの大きな質問に答えることができます。
Hadoopは、同じデータセットで、それぞれが異なるパラメーターを持つ複数の計算を伴う問題を解決するように設計されましたか?たとえば、同じマスターデータセットに基づいて、パラメーターが異なるさまざまなシナリオをシミュレートします(たとえば、同じデータセットでデータマイニングモデルをテストしますが、それぞれが異なるパラメーターセットを使用してシミュレーションを複数回繰り返し、最適なモデルを見つけます)。 )。
たとえば、天気を予測するモデルで、重みが異なる一連のルールがある場合、Hadoopは同じモデルの実行をサポートしますが、各「ノード」は学習セットで異なる重み値で実行され、予測結果を比較して最適なモデルを見つけますか?
それとも、これはHadoopが単に実行するように設計されていないことですか?