html - XML と RCurl を使用して R で HTML を解析する

Question

Web サイトのコンテンツを解析しようとしていますが、エラーメッセージが表示されます。エラーの対処方法がわかりません:

require(RCurl)
require(XML)
html <- getURL("http://www.sec.gov/Archives/edgar/data/8947/000119312506125763/0001193125-06-125763.txt")
doc <- htmlParse(html, asText=TRUE)

これは私が得るエラーメッセージです:

エラー: XML コンテンツは XML ではないようであり、ファイル名を識別していないようです

私はMacで作業しています：

> sessionInfo()
R version 3.0.1 (2013-05-16)
Platform: x86_64-apple-darwin10.8.0 (64-bit)

locale:
[1] en_US.UTF-8/en_US.UTF-8/en_US.UTF-8/C/en_US.UTF-8/en_US.UTF-8

attached base packages:
[1] stats     graphics  grDevices utils     datasets  methods   base     

other attached packages:
[1] plyr_1.8          rJava_0.9-4       R.utils_1.26.2    R.oo_1.13.9       R.methodsS3_1.4.4 gsubfn_0.6-5      proto_0.3-10      RCurl_1.95-4.1   
[9] bitops_1.0-6      splus2R_1.2-0     stringr_0.6.2     foreign_0.8-54    XML_3.95-0.2     

loaded via a namespace (and not attached):
[1] tcltk_3.0.1 tools_3.0.1

この問題を解決する方法についてのアイデアはありますか?

score 1 · Accepted Answer

www.sec.gov Web サイトに保存されているファイリングは、さまざまな種類のファイルが混在しています。プレーンテキスト、jpg、gif、pdf、XML、XBRL、html などがあります。使用しているサンプルファイルは「RAW Dissemination」ファイルタイプで、実際には他のタイプのいずれかまたはすべてを組み合わせたものです。

ファイル名「0001193125-06-125763.txt」は、「アクセッション番号」と拡張子txtを連結したものです。この RAW Dissemination ファイルは、ヘッダーデータと一連の「<DOCUMENT> ....</DOCUMENT>」タグセットで構成されています。DOCUMENT タグの開始タグと終了タグの間にあるのは、「ファイリング」内のさまざまな「ファイル」です。

ファイリング内の異なるファイルのそれぞれは、別々に扱われるべきです。PDFS、JPG、GIF ファイルタイプは UUEncoded であり、UUdecode する必要があります。TXT、HTML、XML、XBRL などのその他のものはプレーンテキストとして扱い、必要に応じて適切な型として解析する必要があります。

ヘッダーデータは、ファイリングを提出した会社、人、ファイラー、ファイラーエージェントなどに関する情報をタグ付けします。

html - XML と RCurl を使用して R で HTML を解析する

3 に答える 3

Related

Reference