次の質問のアプローチを試しましたが、まだ行き詰まっています。
この次のコードは再現可能でなければなりません...何かアイデアはありますか? 過去にさまざまな状態レベルの ACS データに対してこのコードを正常に使用してきたため、scan() または readLines は使用したくありません。
もう 1 つの考えは、テキスト ファイルをインポートする前に編集することです。ただし、ファイルを圧縮して保存し、スクリプトを使用して解凍し、データにアクセスします。R 環境の外でファイルを編集しなければならないことは、そのプロセスを非常に困難にします。前もって感謝します!
Filename <- "g20095us.txt"
Url <- "http://www2.census.gov/acs2005_2009_5yr/summaryfile/2005-2009_ACSSF_By_State_By_Sequence_Table_Subset/UnitedStates/All_Geographies_Not_Tracts_Block_Groups/"
Widths <- c(6,2,3,2,7,1,1,1,2,2,3,5,5,6,1,5,4,5,1,3,5,5,5,3,5,1,1,5,3,5,5,5,2,3,
3,6,3,5,5,5,5,5,1,1,6,5,5,40,200,6,1,50)
Classes <- c(rep('character',4),'integer',rep('character',47))
Names <- c('fileid','stusab','sumlev','geocomp','logrecno','us','region','division',
'statece','state','county','cousub','place','tract','blkgrp','concit',
rep('blank',14),'ua',rep('blank',11),'ur',rep('blank',4),'geoid','name',rep('blank',3))
GeoHeader <- read.fwf(paste0(Url,Filename),widths=Widths,
colClasses=Classes,col.names=Names,fill=TRUE,strip.white=TRUE)
以下のファイル「g2009us.txt」からの4行。2 番目の「Canoncito」が問題を引き起こしています。ダウンロード内の他のファイルは csv ですが、これは固定幅で、関心のある地域を識別するために必要です (データの構成はあまり直感的ではありません)。
ACSSF US251000000964 2430 090 25100US2430090 Cameron Chapter, Navajo Nation Reservation and Off-Reservation Trust Land, AZ--NM--UT ACSSF US25100000965 2430 092 25100US2430092 Cañoncito Chapter, Navajo Nation Reservation and Off-Reservation AZ NM Land-servation UT NM ACSSF US251000000966 2430 095 25100US2430095 カサメロ湖支部、Navajo Nation Reservation and Off-Reservation Trust Land, AZ--NM--UT ACSSF US251000000967 2430 105 25100US2430105 Chi Chil Tah Chapter, Navajo Nation Reservation and Off-Reservation Trust Land, AZ--NM--UT