1

同様の構造を持つ 2 つのテーブルがあります。
- 最初のテーブル: id と col1、col2、col3 - すべて数値。
- 2 番目のテーブル: id および col4、col5、col6 - すべて数値。

最初のタグブルから、2 番目のタグブルのいずれかの行に類似するすべての行を削除したいと考えています。グループ col1-col3 のいずれかの列がグループ col4-col6 のいずれかの列と等しい場合、その行は他の行と類似していると見なします。現在、9 つの連続したデータ ステップ (最初に col1=col4、2 番目の col1=col5 、...、9 番目の col3=col6 をチェック) で実行していますが、これはおそらく最適なソリューションではありません。

これを改善する方法はありますか?

4

2 に答える 2

2

これが私の解決策です:

data vec1;
  set ds2;
  array cvar{*} col4 col5 col6;
  do ijk=1 to dim(cvar);
    compvar=cvar(ijk);
    output;
  end;
run;

proc sql noprint;
  select distinct compvar into :cvars separated by ' '
  from vec1;
quit;
%let numcvar=&sqlobs;

data ds1(drop=i);
  set ds1;
  array myvar(i) col:;
  do over myvar;
    if myvar in (&cvars.) then delete;
  end;
run;

CVARS マクロ変数の長さで問題が発生した場合は、代わりにこれを使用できます。

data vec1;
  set ds2;
  array cvar{*} col:;
  do ijk=1 to dim(cvar);
    compvar=cvar(ijk);
    output;
  end;
run;

proc sort data=vec1 out=vec2(keep=compvar) nodupkey;
  by compvar;
run;

proc transpose data=vec2 out=flat prefix=x;
run;

data ds1(keep=id col:);
  set ds1b;
  if _n_=1 then set flat;
  array myvar(i) col:;
  array xvar(j) x:;
  do over myvar;
    do over xvar;
      if myvar=xvar then delete;
    end;
  end;
run;

PROC SORT を削除することもできますが、大きなデータ セットに対してより効率的になります。

または、オンザフライでフォーマットを生成できます。

data vec1;
  set ds2;
  array cvar{*} col4 col5 col6;
  do ijk=1 to dim(cvar);
    compvar=cvar(ijk);
    output;
  end;
run;

proc sort data=vec1 out=vec2 nodupkey;
  by compvar;
run;

data fmt1;
  set vec2;
  length start $20;
  fmtname="remobs";
  start=compress(put(compvar,best.));
  label="remove";
run;

proc format lib=work cntlin=fmt1;
run;

data ds1(drop=i);
  set ds1;
  array myvar(i) col:;
  do over myvar;
    if put(myvar,remobs.)="remove" then delete;
  end;
run;

この最後の方法は、前の 2 つの解決策よりも高速であると思います。

アップデート

ハッシュ オブジェクトの使用

data vec1;
  set ds2;
  array cvar{*} col4 col5 col6;
  do ijk=1 to dim(cvar);
    compvar=cvar(ijk);
    output;
  end;
run;

proc sort data=vec1 out=vec2 nodupkey;
  by compvar;
run;

data ds1_new(keep=id col1 col2 col3);
  if _n_ = 0 then set work.vec2;
  declare hash myhash(DATASET:'work.vec2') ; 
  rc=myhash.defineKey('compvar'); 
  myhash.defineDone();
  set ds1;
  array rcarr{*} rc1-rc3;
  array lookup{*} col1 col2 col3;
  do i=1 to dim(lookup);
    rcarr(i)=myhash.find(key: lookup(i));
    if rcarr(i)=0 then delete;
  end;
run;
于 2012-03-20T15:24:32.883 に答える
1

わかりました、これに答える2回目の試み。テーブル 1 のすべての行をテーブル 2 のすべての行と一致させるために、2 つのデータセットのデカルト結合を作成しました。その後、配列を使用して、どの行に繰り返し値があるかを調べることができます。

data ds1;
input id col1 col2 col3;
cards;
1   10  20  30
2   40  50  60
3   70  80  90
4   15  25  35
5   45  55  65
;
run;

data ds2;
input id col4 col5 col6;
cards;
10  100 200 300
12  60  50  600
13  700 800 70
16  15  20  300
;
run;

proc sql;
create view all_cols as select
ds1.id as id1, ds2.id as id2,* from ds1,ds2;
quit;

data match;
set all_cols (keep=id1 id2 col:);
array vars1{*} col1-col3;
array vars2{*} col4-col6;
do i=1 to dim(vars1);
do j=1 to dim(vars2);
    if vars1{i}=vars2{j} then do;
    output;
    return;
    end;
end;
end;
drop i j;
run;

proc sort data=match;
by id1;
run;

data ds1;
modify ds1 match (in=b keep=id1 rename=(id1=id));
by id;
if b then remove;
run;
于 2012-03-20T10:37:43.867 に答える