Web サイトから複数の zip ファイルをダウンロードしました。各 zip ファイルには、複数html
のxml
拡張ファイルが含まれています (それぞれ最大 100K)。
ファイルを手動で抽出して解析することができます。R
ただし、 (可能であれば)以内にこれを実行できるようにしたいと考えています
前の質問のコードを使用したサンプル ファイル (少し大きいので申し訳ありません) - zip ファイルを 1 つダウンロードします
library(XML)
pth <- "http://download.companieshouse.gov.uk/en_monthlyaccountsdata.html"
doc <- htmlParse(pth)
myfiles <- doc["//a[contains(text(),'Accounts_Monthly_Data')]", fun = xmlAttrs][[1]]
fileURLS <- file.path("http://download.companieshouse.gov.uk", myfiles) [[1]]
dir.create("temp", "hmrcCache")
download.file(fileURLS, destfile = file.path("temp", myfiles))
XBRL package
手動で抽出した場合、を使用してファイルを解析でき
ます。これは次のように行うことができます
library(XBRL)
inst <- file.path("temp", "Prod224_0004_00000121_20130630.html")
out <- xbrlDoAll(inst, cache.dir="temp/hmrcCache", prefix.out=NULL, verbose=T)
これらのファイルを zip フォルダーから抽出し、手動で抽出せずに、たとえば R を使用したループで各ファイルを解析する方法に苦労しています。始めてみましたが、ここから先の進め方がわかりません。アドバイスをありがとう。
# Get names of files
lst <- unzip(file.path("temp", myfiles), list=TRUE)
dim(lst) # 118626
# unzip and extract first file
nms <- lst$Name[1] # Prod224_0004_00000121_20130630.html
lst2 <- unz(file.path("temp", myfiles), filename=nms)
Windows 8.1 を使用しています
R バージョン 3.1.2 (2014-10-31)
プラットフォーム: x86_64-w64-mingw32/x64 (64 ビット)