1

Web サイトから複数の zip ファイルをダウンロードしました。各 zip ファイルには、複数htmlxml拡張ファイルが含まれています (それぞれ最大 100K)。

ファイルを手動で抽出して解析することができます。Rただし、 (可能であれば)以内にこれを実行できるようにしたいと考えています

前の質問のコードを使用したサンプル ファイル (少し大きいので申し訳ありません) - zip ファイルを 1 つダウンロードします

library(XML)

pth <- "http://download.companieshouse.gov.uk/en_monthlyaccountsdata.html"
doc <- htmlParse(pth)

myfiles <- doc["//a[contains(text(),'Accounts_Monthly_Data')]", fun = xmlAttrs][[1]]
fileURLS <- file.path("http://download.companieshouse.gov.uk", myfiles) [[1]]

dir.create("temp", "hmrcCache")
download.file(fileURLS, destfile = file.path("temp", myfiles))

XBRL package手動で抽出した場合、を使用してファイルを解析でき ます。これは次のように行うことができます

library(XBRL)     
inst <- file.path("temp", "Prod224_0004_00000121_20130630.html")
out <- xbrlDoAll(inst, cache.dir="temp/hmrcCache", prefix.out=NULL, verbose=T)

これらのファイルを zip フォルダーから抽出し、手動で抽出せずに、たとえば R を使用したループで各ファイルを解析する方法に苦労しています。始めてみましたが、ここから先の進め方がわかりません。アドバイスをありがとう。

# Get names of files
lst <- unzip(file.path("temp", myfiles), list=TRUE)
dim(lst) # 118626

# unzip  and extract first file
nms <- lst$Name[1] # Prod224_0004_00000121_20130630.html
lst2 <- unz(file.path("temp", myfiles), filename=nms)

Windows 8.1 を使用しています

R バージョン 3.1.2 (2014-10-31)

プラットフォーム: x86_64-w64-mingw32/x64 (64 ビット)

4

1 に答える 1