0

Pig を使用してアプリケーション ログを解析し、先月 (同じユーザーによって) 呼び出されなかったユーザーによって呼び出された公開メソッドを確認しています。

先月の前と先月の後にユーザーによってグループ化されたメソッドを呼び出すことができました:

BEFORE 先月関連サンプル

u1      {(m1),(m2)}
u2      {(m3),(m4)}

AFTER 先月関係サンプル

u1      {(m1),(m3)}
u2      {(m1),(m4)}

私が欲しいのは、ユーザーが、BEFORE にない AFTER にあるメソッドを見つけることです。つまり、

NEWLY_CALLED 期待される結果

u1      {(m3)}
u2      {(m1)}

質問: Pig でそれを行うにはどうすればよいですか? バッグを差し引くことはできますか?

DIFF 関数を試しましたが、予想される減算を実行しません。

よろしく、

ジョエル

4

2 に答える 2

2

興味があるかもしれない人のために、私が以下のクラスを書き、Pig ( PIG-2881 )に提案した減算関数を次に示します。

/**
 * Subtract takes two bags as arguments returns a new bag composed of tuples of first bag not in the second bag.<br>
 * If null bag arguments are replaced by empty bags. 
 * <p>
 * The implementation assumes that both bags being passed to this function will fit entirely into memory simultaneously.
 * </br>
 * If that is not the case the UDF will still function, but it will be <strong>very</strong> slow.
 */
public class Subtract extends EvalFunc<DataBag> {

  /**
   * Compares the two bag fields from input Tuple and returns a new bag composed of elements of first bag not in the second bag.
   * @param input a tuple with exactly two bag fields.
   * @throws IOException if there are not exactly two fields in a tuple or if they are not {@link DataBag}.
   */
  @Override
  public DataBag exec(Tuple input) throws IOException {
    if (input.size() != 2) {
      throw new ExecException("Subtract expected two inputs but received " + input.size() + " inputs.");
    }
    DataBag bag1 = toDataBag(input.get(0));
    DataBag bag2 = toDataBag(input.get(1));
    return subtract(bag1, bag2);
  }

  private static String classNameOf(Object o) {
    return o == null ? "null" : o.getClass().getSimpleName();
  }

  private static DataBag toDataBag(Object o) throws ExecException {
    if (o == null) {
      return BagFactory.getInstance().newDefaultBag();
    }
    if (o instanceof DataBag) {
      return (DataBag) o;
    }
    throw new ExecException(format("Expecting input to be DataBag only but was '%s'", classNameOf(o)));
  }

  private static DataBag subtract(DataBag bag1, DataBag bag2) {
    DataBag subtractBag2FromBag1 = BagFactory.getInstance().newDefaultBag();
    // convert each bag to Set,  this does make the assumption that the sets will fit in memory.
    Set<Tuple> set1 = toSet(bag1);
    // remove elements of bag2 from set1 
    Iterator<Tuple> bag2Iterator = bag2.iterator();
    while (bag2Iterator.hasNext()) {
      set1.remove(bag2Iterator.next());
    }
    // set1 now contains all elements of bag1 not in bag2 => we can build the resulting DataBag.
    for (Tuple tuple : set1) {
      subtractBag2FromBag1.add(tuple);
    }
    return subtractBag2FromBag1;
  }

  private static Set<Tuple> toSet(DataBag bag) {
    Set<Tuple> set = new HashSet<Tuple>();
    Iterator<Tuple> iterator = bag.iterator();
    while (iterator.hasNext()) {
      set.add(iterator.next());
    }
    return set;
  }

}
于 2012-08-17T09:06:30.693 に答える
2

UDF を作成する必要があると思います。

Set<T> setA ...
Set<T> setB ...
Set<T> setAminusB = setA.subtract(setB);
于 2012-08-17T08:50:48.330 に答える