大規模なデータセットに対してクエリを実行する必要があるため、データ ウェアハウスの問題があります。この例では、典型的な州に 3,000 万人のユーザーがいて、それぞれのアクティビティ統計があるとします。理想的には、データ ウェアハウジング ツール (Vertica、Infobright など) を購入できればよいのですが、それはカードや予算に含まれていません。
現在、Solr を使用して HBase をクエリすることを検討しています。HBase はニーズに合わせてスケールアップできると信じていますが、Solr については心配しています。検索エンジンとして最適化されています。つまり、結果の最初のページが最後のページより前に返され、データベース カーソルのようなものはサポートされていません。これまでのテストでは、Solr から大規模な結果セットを取得するのが思ったよりも遅いことがわかりました。たとえば、Infobright のコミュニティ バージョンで使用可能なユーザーの半分 (最終的に 500 MB のデータを返したユーザー) を取得するクエリを比較すると、Solr では 12 分かかりました。
このデータのクエリに適した Solr 以外のものはありますか? 大量のデータの入出力に役立つ最適化はありますか?