次の hbase ユース ケースがあります: 行キー (md5 ハッシュの組み合わせで構築) と 2 つの列ファミリを持つ 1 つの Hbase テーブル。論理的には、テーブルには文が格納されます。テーブルには数億のレコードがあります。
この hbase テーブルに接続する webapp があり、いくつかの条件に基づいて文をランダムにエクスポートする必要があります。現在、これらすべての条件は、行キーを使用するだけで検索できます。通常、1 つのエクスポートには数百の文が含まれます。重要な制限は、一部のセグメントがエクスポートされると、その後のエクスポートに存在してはならないということです。
私の質問はこれに関連しています-同じセグメントが再度エクスポートされないようにするにはどうすればよいですか?
各エクスポートが発生した後、フラグを更新して、エクスポートされたセグメントを「マーク」する必要がありますか? これには、条件に一致するセグメントを調べるときに、それらのレコードを識別するために行キーだけを使用することはできず、そのフラグも使用できないという欠点があります。したがって、フィルターを使用する必要がありますが、これはかなり遅いことがわかっています。
これに対するより良いアプローチはありますか?