ここでSASを学ぶ...
salesPeople
次のようなデータセットがあります。
personID personZip
123 47382
123 47382
123 47382
123 47382
123 47382
123 47382
123 47382
123 47382
123 76737
123 76737
123 76737
123 Smallville
123 Smallville
123 Smallville
654 27767
654 27767
654 27767
654 27767
654 27767
654 27767
654 27767
654 83764
654 83764
654 83764
654 83764
654 Metropolis
654 Metropolis
654 Metropolis
654 Metropolis
... ...
ごとpersonID
に、最大で数百の観測がある場合があります。それらの大部分は同じ郵便番号になります。他に有効な郵便番号が 1 ~ 3 個ある場合があります。また、個人ごとに、都市の郵便番号 (47382、この場合はスモールビルにあります) の代わりに都市名 (スモールビルなど) を持ついくつかの観測値があります。このデータセットでは、都市名がpersonZip
列にある場合、常に最も頻繁に適切に入力された personZip に対応します。
私がやっていることの目的のために、都市名のすべてのインスタンスを最も一般的なpersonZip
. ここでは、たとえば、とで置き換えSmallville
てもまったく問題ありません。実際、それがまさに私がやりたいことです。データセットには数千の一意の値と、数十万の観測値があります。47382
Metropolis
27767
personID
salesPeople
私がやりたいことはpersonZip
、それぞれの最も頻繁な都市名を特定しpersonID
、無効な都市名をその郵便番号に置き換えることです。最も頻繁な値を決定し、それをデータ セットpersonZip
にマージできるように保存する最良の方法は何ですか?salesPeople