1

ここでSASを学ぶ...

salesPeople次のようなデータセットがあります。

personID      personZip
123           47382
123           47382
123           47382
123           47382
123           47382
123           47382
123           47382
123           47382
123           76737
123           76737
123           76737
123           Smallville
123           Smallville
123           Smallville
654           27767
654           27767
654           27767
654           27767
654           27767
654           27767
654           27767
654           83764
654           83764
654           83764
654           83764
654           Metropolis
654           Metropolis
654           Metropolis
654           Metropolis
...           ...

ごとpersonIDに、最大で数百の観測がある場合があります。それらの大部分は同じ郵便番号になります。他に有効な郵便番号が 1 ~ 3 個ある場合があります。また、個人ごとに、都市の郵便番号 (47382、この場合はスモールビルにあります) の代わりに都市名 (スモールビルなど) を持ついくつかの観測値があります。このデータセットでは、都市名がpersonZip列にある場合、常に最も頻繁に適切に入力された personZip に対応します。

私がやっていることの目的のために、都市名のすべてのインスタンスを最も一般的なpersonZip. ここでは、たとえば、とで置き換えSmallvilleてもまったく問題ありません。実際、それがまさに私がやりたいことです。データセットには数千の一意の値と、数十万の観測値があります。47382Metropolis27767personIDsalesPeople

私がやりたいことはpersonZip、それぞれの最も頻繁な都市名を特定しpersonID、無効な都市名をその郵便番号に置き換えることです。最も頻繁な値を決定し、それをデータ セットpersonZipにマージできるように保存する最良の方法は何ですか?salesPeople

4

1 に答える 1