R にいくつかのリストがあります。これは、データをスクレイピングしている比較的構造化されていないドキュメントからの一連の行です。各ページの上部にはページ番号があり、その前に文字列 "page" と数行のヘッダー情報が続きますが、これは削除したいと思います。
各ドキュメントには、異なる数のヘッダー行があります。これまでの私の解決策:
RawFeed.1<- grep("Page",RawFeed)
RawFeed.1a<-length(RawFeed.1)
RawFeed.1<-RawFeed.1[-1]
最初のページには常に残りのページよりも多くのヘッダー行があり、後で削除されるため、最初のインスタンスがここで削除されることに注意してください。
y<-RawFeed.1[1]
ya<-c(y:length(RawFeed))
NSearch<-RawFeed[ya]
NSearch.1<-grep("Start", NSearch)
y1<-NSearch.1[1]
y1<-y1-1
y2<-c(0:y1)
「開始」は常にデータの開始前の行にあるため、これにより一貫してドキュメント固有のヘッダー行数が得られます。
次に、次の方法でそれらを削除しようとします。
PageBreak <-function(y) {
RawFeed<-RawFeed[-x-y]
}
RawFeedTemp<-lapply(RawFeed.1,PageBreak,y=y2)
どちらが機能しますか-RawFeedTemp[[n]]
そのページのヘッダー情報のみが削除されたような配列が残っています。
したがって、各ページのヘッダー情報が削除されたリストが残っている同様の操作をどのように実行できますか、または配列内の要素を組み合わせて、行のセットを 1 つだけ含むようにする方法があります。削除する?
編集:データの例
[306] N 46 10/08/12 10/08/12 Stuff :30 NM 0 $0.00"
[307] Week: 10/08/12 10/14/12 Other Stuff $6,500.00 0.00
[308] " Contract Agreement Between: Print Date 10/05/12 Page 5 of 6"
[309] ""
[310] ""
[311] " Contract / Revision Alt Order #"
[312] " Person
[313] " Address 1
[314] " Address 2
[315] " Address 3
[316] " Address 4
[317] ""
[318] " Original Date / Revision"
[319] ""
[320] "08/10/12 / 10/04/12"
[321] ""
[322] ""
[323] ""
[324] "* Line Ch Start Date End Date Description Start
[325] MORE DATA
別のファイルには、これらのヘッダーの数が異なる場合があります。また、レコードは複数の行を占めることに注意してください。ほとんどのファイルは、新しいページを開始する前にレコードを終了しますが、レコードの 2 行目を新しいページにプッシュすることを主張するファイルもいくつかあるため、それらをすべて削除する必要があります。
ご協力いただきありがとうございます!