0

次の hbase ユース ケースがあります: 行キー (md5 ハッシュの組み合わせで構築) と 2 つの列ファミリを持つ 1 つの Hbase テーブル。論理的には、テーブルには文が格納されます。テーブルには数億のレコードがあります。

この hbase テーブルに接続する webapp があり、いくつかの条件に基づいて文をランダムにエクスポートする必要があります。現在、これらすべての条件は、行キーを使用するだけで検索できます。通常、1 つのエクスポートには数百の文が含まれます。重要な制限は、一部のセグメントがエクスポートされると、その後のエクスポートに存在してはならないということです。

私の質問はこれに関連しています-同じセグメントが再度エクスポートされないようにするにはどうすればよいですか?

各エクスポートが発生した後、フラグを更新して、エクスポートされたセグメントを「マーク」する必要がありますか? これには、条件に一致するセグメントを調べるときに、それらのレコードを識別するために行キーだけを使用することはできず、そのフラグも使用できないという欠点があります。したがって、フィルターを使用する必要がありますが、これはかなり遅いことがわかっています。

これに対するより良いアプローチはありますか?

4

1 に答える 1

0

行キーを渡すのは誰ですか? 彼が一意の行キーを送信していることを確認できますか?

一度エクスポートしたデータが不要な場合。その文をhbaseテーブルから完全に削除してみませんか?

上記の質問の両方に対する答えが「いいえ」の場合、テーブルにフラグを保持するしか方法はありません。

于 2013-08-13T11:37:13.623 に答える