hadoop - 数千のクエリ内で大量のデータレコードを照合

Question

大量のデータレコード (約 15 億件) と多数のクエリ (約 1 万件) があります。

各レコードは複数のクエリで照合できます。(データレコードに対してクエリを評価することで判断できます)

レコードは分散データベースに保存されました。各レコードには、このデータレコードに一致するクエリの ID を格納するフィールドがあります。

約 15 分ですべてのレコードをスキャンできます (ただし、データには何もしません)。

レコードごとに。一致するクエリ ID でマークしたいと思います。大きな遅延なし (例: 1 時間)。これを行うための良いアルゴリズムはありますか? クエリに対して各クエリを繰り返すことは解決策ではありません。ある種の索引付けが必要だと思います。助けてください！ありがとう！

score 0 · Accepted Answer

Apache Pigでは、デフォルトでマルチクエリがオンになっています。クエリが同じデータソースを共有している場合、Pigはそれらを並行して実行するため、入力データは1回だけ読み取られます。

hadoop - 数千のクエリ内で大量のデータ レコードを照合