私は、XMLパッケージを使用してhtmlテーブルをRデータフレームにスクレイピングしてWebから一部のhtmlをスクレイピングし、Rで操作する際に、非常に役立つ応答を取得してきました。
XMLパッケージは、テキスト文字列内のアルファベット以外の文字のエスケープについてかなり徹底しているようです。XMLまたは他のパッケージに、XMLを介してデータを渡す場合にエスケープする文字の一部またはすべてを逆にする簡単な方法はありますか?私は自分でそれを始めましたが、「代表的なJoaquÃÂnCastro」のような事件に遭遇した後、「より良い解決策があるに違いない...」と思いました。
わかりやすくするために、XMLパッケージを使用してこのHTMLを解析します
library(XML)
apos_str <- c("<b>Tim O'Reilly</b>")
apos_str.parsed <- htmlTreeParse(apos_str, error=function(...){})
apos_str.parsed$children$html[[1]][[1]]
を生成します
<b>Tim O'Reilly</b>
そして、理想的にはそれを検索する関数またはパッケージが欲しいです
'
そしてそれを元に戻します
'<b>Tim O'Reilly</b>'
編集明確にするために、以下のコメントから、アポストロフィの特定のケース、またはデータに表示される他の文字に対してこれを行う方法を取得します。私が探しているのは、誰かがこれをより一般的に解決したパッケージです。
私がこれまでに行った調査:
-エスケープに関するXMLドキュメントで見つけたものをすべて読んでください。
-CRANNLPページで有望なパッケージを探しました。
-ここSOで「unescape[R]」と「reverseescape[R]」を検索しました。何も進まなかったので、ここに質問を持ってきたいと思いました。