XBus と呼ばれるデータ集約プラットフォームを使用しています。最初に紹介する必要があります。XBus は、RDBMS、XML ファイル、JSON ファイル、Web サービスなど、さまざまな種類のデータ ソースを集約します。ユーザーは、結合、並べ替え、フィルター、結合、グループ化などの多くの操作を含むデータ プロセス フローを定義できます。そして、その流れが XQuery スクリプトに変換されます。SAXON (XML プロセス エンジン) は、単一のコンピューター (サーバー) でXQuery スクリプトを処理します。
ただし、データ数が多いと、完了するまでに時間がかかります。そこで、分散環境で大量のデータを扱えるMapReduceフレームワークを検討しています。しかし、MapReduce が適しているかどうかはわかりません。
私の疑問を示すことができる質問があります。
これはデータ集約プラットフォームであるため、元のデータはさまざまなシステムに保存されます。MapReduce でデータを処理する前に、それらのシステムから関連データを収集して MapReduce (HDFS) に入れる必要がありますか? もしそうなら、それをするのに長い時間がかかりますよね?