複数の PostgreSQL データベースで構成されるシステムがあります。各データベースには同じテーブル、つまりスキーマがありますが、データの一部しか保持していません (完全なデータではありません!)。データを分散する理由は、お客様がかなり複雑なクエリを実行し、最大 100 回の計算を実行するためです。行ごと。
データを複数のデータベースに分散することで、各データベースで処理される作業量を減らし、最終的に検索を高速化したいと考えています。最後に、各データベースの結果を組み合わせて最終結果を作成します。
私の友人は、MapReduce (Hadoop) を見ることを勧めています。私の意見では、map-reduce は、単一のワーカーが同じデータを共有しているが、異なるタイプの作業を実行している場合にのみ意味があります (複数の命令、単一のデータに対応)。
ただし、この場合、ワーカーは同じタスクを実行する必要がありますが、そのタスクをさまざまなデータ (単一の命令、複数のデータに対応) に対して実行する必要があります。
MapReduce (Hadoop) は、異なるデータで実行される同じタスクのパラダイムに意味がありますか?