以下のスクリプトを使用して、PDF から変換された HTML ファイルからデータを抽出しようとしました。
temp.html <- scan(file=filename,what="character")
pagetree <- htmlTreeParse(temp.html, error=function(...){}, useInternalNodes = TRUE)
tx.raw <- getNodeSet(pagetree,"//div")
リストを作成すると、そのtx.raw
うちの 1 つが次のように表示されます。
tx[[170]]
[[170]]
<div style="position:absolute;top:985;left:748">
<nobr>
<span class="ft03">
971.72
</span>
</nobr>
</div>
必要な情報は内部にありますspan
(つまり971.72
) が、データが入っている部分がpdf ファイルのどこにあるかを正確style
にdiv
知らせる必要もあります。span
スタイル情報も抽出するにはどうすればよいですか? ありがとう。