私は perl を使用して、最終的に Stata に取り込む .txt を介して以下をスクレイピングしています。どの形式オプションが機能しますか? 私はそのような観察をたくさん持っているので、一般化できるアプローチを使用したいと思います。
元のデータの形式は次のとおりです。
First Name: Allen
Last Name: Von Schmidt
Birth Year: 1965
Location: District 1, Ocean City, Cape May, New Jersey, USA
First Name: Lee Roy
Last Name: McBride
Birth Year: 1967
Location: Precinct 5, District 2, Chicago, Cook, Illinois, USA
目標は、Stata で変数を作成することです。
First Name: Allen
Last Name: Von Schmidt
Birth Year: 1965
County: Cape May
State: New Jersey
First Name: Allen
Last Name: McBride
Birth Year: 1967
County: Cook
State: Illinois
どのような .txt がそのような結果になる可能性がありますか? また、それをどのように Stata にロードしますか?
また、これらの 2 つの例のように用語の量は Location によって異なりますが、私は常に USA の前に 2 が必要です。
現時点では、.txt のテーブルの各変数を "" で囲んでいます。
"Allen","Von Schmidt","1965","District 1, Ocean City, Cape May, New Jersey, USA"
"Lee Roy","McBride","1967","Precinct 5, District 2, Chicago, Cook, Illinois, USA"
.txt をフォーマットするより良い方法はありますか? Stata で対応する変数を作成するにはどうすればよいですか?
ご協力ありがとうございました!
PS私は、stataがinfileまたはinsheetを使用し、変数を分離するために、またはタブを処理できることを知っています。Perl の Location のような変数をそれらすべてでスクレイピングする方法がわからなかったので、「」を追加しました