12

Web サイトから HTML ファイルを読みたい。具体的には、gutenberg.org から HTML 形式の本を読みたいと思っています。各章のタイトルはタグ「h2」でマークされ、各章の内容は「h2」の後の段落タグ「p」に続きます。パッケージ XML を使用して、各タグの値または完全な HTML コードを取得できます。

以下は、George Elliot の Middlemarch を使用したサンプル コードです。

library(XML)

doc.html = htmlTreeParse('http://www.gutenberg.org/files/145/145-h/145-h.htm',
                         useInternal = TRUE)
doc.value <- xpathApply(doc.html, '//h2|//p', xmlValue)
doc.html.value <- xpathApply(doc.html, '//h2|//p')

doc.value には、各要素がタグのコンテンツであるリストが含まれていますが、h2 タグか p タグかはわかりません。一方、doc.html.value には、各タグの html コードを含むリストが含まれています。これにより、それが「h2」または「p」タグであるかどうかの情報が得られますが、必要のない多くの追加コード (スタイル情報など) も含まれています。

私の質問: タグのタイプとタグの値のみを取得し、関連する他の情報を取得する簡単な方法はありますか?

4

1 に答える 1