こんにちは、私は R の初心者で、Web サイトのデータをスクレイピングしようとしています。問題は、データが一貫して格納されていないことです。
時々私は見ます:
<div class = "text"> The text I want </div>
また、次のように表示されることもあります。
<div class = "text"><div class = "text"> The text I want </div></div>
これまでのところ、XML パッケージと次の R コードを使用しています。
doc = htmlTreeParse(url, useInternalNodes = T)
text = xpathSApply(doc, "//*/div[@class='text']", xmlValue)
問題は、このコードが 2 番目の例に出くわしたときに「The text I want」を 2 回カウントすることです。これは、<div class>
属性が 2 回検出されるためです。1回しか表示されないので、1回だけカウントしたいです。
どんなポインタでも大歓迎です!