1

Web サイトのコンテンツを解析しようとしていますが、エラー メッセージが表示されます。エラーの対処方法がわかりません:

require(RCurl)
require(XML)
html <- getURL("http://www.sec.gov/Archives/edgar/data/8947/000119312506125763/0001193125-06-125763.txt")
doc <- htmlParse(html, asText=TRUE)

これは私が得るエラーメッセージです:

エラー: XML コンテンツは XML ではないようであり、ファイル名を識別していないようです

私はMacで作業しています:

> sessionInfo()
R version 3.0.1 (2013-05-16)
Platform: x86_64-apple-darwin10.8.0 (64-bit)

locale:
[1] en_US.UTF-8/en_US.UTF-8/en_US.UTF-8/C/en_US.UTF-8/en_US.UTF-8

attached base packages:
[1] stats     graphics  grDevices utils     datasets  methods   base     

other attached packages:
[1] plyr_1.8          rJava_0.9-4       R.utils_1.26.2    R.oo_1.13.9       R.methodsS3_1.4.4 gsubfn_0.6-5      proto_0.3-10      RCurl_1.95-4.1   
[9] bitops_1.0-6      splus2R_1.2-0     stringr_0.6.2     foreign_0.8-54    XML_3.95-0.2     

loaded via a namespace (and not attached):
[1] tcltk_3.0.1 tools_3.0.1

この問題を解決する方法についてのアイデアはありますか?

4

3 に答える 3

1

www.sec.gov Web サイトに保存されているファイリングは、さまざまな種類のファイルが混在しています。プレーン テキスト、jpg、gif、pdf、XML、XBRL、html などがあります。使用しているサンプル ファイルは「RAW Dissemination」ファイル タイプで、実際には他のタイプのいずれかまたはすべてを組み合わせたものです。

ファイル名「0001193125-06-125763.txt」は、「アクセッション番号」と拡張子txtを連結したものです。この RAW Dissemination ファイルは、ヘッダー データと一連の「<DOCUMENT> ....</DOCUMENT>」タグ セットで構成されています。DOCUMENT タグの開始タグと終了タグの間にあるのは、「ファイリング」内のさまざまな「ファイル」です。

ファイリング内の異なるファイルのそれぞれは、別々に扱われるべきです。PDFS、JPG、GIF ファイル タイプは UUEncoded であり、UUdecode する必要があります。TXT、HTML、XML、XBRL などのその他のものはプレーン テキストとして扱い、必要に応じて適切な型として解析する必要があります。

ヘッダー データは、ファイリングを提出した会社、人、ファイラー、ファイラー エージェントなどに関する情報をタグ付けします。

于 2013-11-11T12:54:13.870 に答える