HBase用のクエリ言語を書くことを考えています。このクエリ言語を使用すると、ユーザーはフィルターを適用したり、行間で関数をマップしたり、データを集約/削減したりできるようになります。(さらに、これはドメイン固有のクエリ言語です。)HBaseを使用している場合によくあることですが、データセットが非常に大きいと想像してください。
私の質問は、さまざまなフィルタリングとマッピングおよび集計の間で、中間データをどのように処理する必要があるかです。データをファイルシステムに保存する必要がありますか?それは少しもったいないようです。関数を作成して、すべてを一度に実行する必要がありますか?
それは私が達成したいことと私のクエリ言語がどのようになるかに少し依存することを理解しています。しかし、この一般的な問題は通常どのように処理されますか?共有するためのヒントや洞察はありますか?この問題を扱っている良い記事/リソースはありますか?