document_ids (検索エンジン、nosql データベース、自己開発のセマンティック インデックス作成アプリケーション) を使用してドキュメントを保存する 3 つの異なるソリューションがあります。
私はすべての異なるソリューションに対してクエリを実行しており、SQL JOIN に似たものを使用してそれらをマージしたいと考えています。これは、document_id で結合する必要がある 3 つ以上の異なるデータセットを持つ場合があることを意味します。
この問題を解決するには、Hadoop での Map Reduce または同様の方法が最適な方法であるかどうかご存じですか? これらのデータセットには、1 つの document_id から 100,000 までの任意の場所を含めることができます。
お時間をいただきありがとうございます。