1

私はウィキペディアから税金データを引き出し、再結合に取り組んでいましたが、データから引用タグを削除するのに問題があります ( http://en.wikipedia.org/wiki/List_of_countries_by_tax_rates#Countries )。最初に、 [ で strsplit を使用して削除しようとしましたが、これが得られました。

URL <- "http://en.wikipedia.org/wiki/List_of_countries_by_tax_rates#Countries"

library(XML) 
taxes <- readHTMLTable(URL, which=2) 

matrix(unlist(strsplit(taxes$Country, "\\[")), ncol = 2, byrow = TRUE)
[,1]                       [,2]                      
[1,] "Albania"                  "1]"                      
[2,] "Algeria"                  "3]"                      
[3,] "Andorra"                  "citation needed]"        
[4,] "Angola"                   "1]"                      
[5,] "Argentina"                "Armenia"                 
[6,] "1]"                       "Aruba" 

最終的に、引用を削除したいと思います(番号付きまたは「引用が必要」であり、それらを囲む括弧)。名前だけを保持できるように、2 番目の列に数字を、最初の列に国名を入れたいと思っていましたが、脚注がない場合は列が混在してしまいます。私も使用を検討しましcSplitたが、そのアプローチでも成功しませんでした。助言がありますか?

4

1 に答える 1