xml - R で XML を解析するときにエラーを引き起こす ASCII エンティティ

Question

R で xml パッケージを使用して Web ページを解析しようとしています。XML には、属性名の中にいくつかの特殊文字が含まれ<B name="A < 0">ています。<使用の要点は、 < が予約されているという問題を回避することだと思いました。

エラーをスローする再現可能な例を次に示します。

x <- '
<A>
<B name="1">
<C name="A &lt; 0"> Value </C>
</B>
</A>
'

getNodeSet(xmlRoot(xmlTreeParse(x)),"/A/B/C")

getNodeSet を使用してこの解析をきれいに行うにはどうすればよいですか?

生のテキストで gsub を使用してのインスタンスを見つけて置き換えるという簡単な回避策がありますが<、置き換えるつもりのないものを置き換えることを心配しています。ファイルに"は、属性名にものインスタンスがあります。同じ問題。

gsub よりもエレガントで一般的なソリューションはありますか?

どうもありがとう！

score 0 · Accepted Answer

たとえば、これを試してください：

   xpathSApply(xmlParse(x),"/A/B/C",xmlGetAttr,'name')
   [1] "A < 0"

xpathSApplyと同等ですsapply。xmlParseと notの使用にも注意してくださいxmlTreeParse。

1 に答える 1