PubMed Central から XML ドキュメントを解析していると、次の例のようにネストされたテーブルを含む段落が見つかることがあります。Rでテキストを取得してテーブルを除外する方法はありますか?
doc <- xmlParse("<sec><p>Text</p>
<p><em>More</em> text<table>
<tr><td>SKIP</td><td>this</td></tr>
</table></p>
</sec>")
xpathSApply(doc, "//sec/p", xmlValue)
[1] "Text" "More textSKIPthis"
ネストされたテーブルの行を含まない段落を返したいと思います。
[1] "Text" "More text"