R の XML パッケージ ユーザーの皆様、こんにちは。
XML の解析中に奇妙なバグに遭遇しました。これは、XML ファイルの解析中に mdash や ndash などの HTML エンティティに遭遇することに関係しています。
これは私が使用するコードです:
InText = readLines(xmlFileName,n=-1)
Text = xmlValue(xmlRoot(xmlTreeParse(InText,trim=FALSE)))
私は現在、以下を使用して mdash や ndash などのこれらのエンティティを排除しています
InText = gsub("\\&mdash"," ",InText);
InText = gsub("\\&ndash"," ",InText);
しかし、可能な HTML.4.0 エンティティ リストのリストが表示されるので、これは非常に面倒です。
XMLファイルの解析中にこれらを排除する方法についてのアイデア
あなたの助けとアイデアをありがとう シヴァニ