0

大量のデータ レコード (約 15 億件) と多数のクエリ (約 1 万件) があります。

各レコードは複数のクエリで照合できます。(データレコードに対してクエリを評価することで判断できます)

レコードは分散データベースに保存されました。各レコードには、このデータ レコードに一致するクエリの ID を格納するフィールドがあります。

約 15 分ですべてのレコードをスキャンできます (ただし、データには何もしません)。

レコードごとに。一致するクエリ ID でマークしたいと思います。大きな遅延なし (例: 1 時間)。これを行うための良いアルゴリズムはありますか? クエリに対して各クエリを繰り返すことは解決策ではありません。ある種の索引付けが必要だと思います。助けてください!ありがとう!

4

1 に答える 1

0

Apache Pigでは、デフォルトでマルチクエリがオンになっています。クエリが同じデータソースを共有している場合、Pigはそれらを並行して実行するため、入力データは1回だけ読み取られます。

于 2012-09-06T09:30:34.883 に答える