1

データベース システムに、いくつかの理由で LOAD ステートメントでプルできないデータがあります。このデータをキー (識別子) でルックアップするには Pig が必要ですが、Java UDF を実装する場合、1 つずつのキー ルックアップのパフォーマンスが心配です。基本的に、リレーションに 10,000 のエントリがある場合、このデータを 500 個のキーのセットで検索したいと考えています。Pig は、キーのセットを取り込んで、Pig 関係のタプルに結合または何らかの方法で割り当てることができる回答のセット (バッグまたはマップ) を返す Java メソッドを呼び出すことを可能にするインターフェイスを提供しますか?

よろしくお願いします。

4

1 に答える 1

0

いくつかの提案:

  • 単一のバッチでクエリを実行する識別子のバッグを期待するように UDF を記述できますか? 10,000 個の識別子をいくつかのバッチに分割する豚を記述する必要があります (バッグ - 方法はわかりませんが 'これは簡単です)、その後、UDF 出力を平坦化して再結合するための後続の pig コード
  • MAPREDUCEキーワードを使用し、マッパー実装でバッチ クエリを実行します。
于 2013-07-11T00:06:01.030 に答える