私はウィキペディアから税金データを引き出し、再結合に取り組んでいましたが、データから引用タグを削除するのに問題があります ( http://en.wikipedia.org/wiki/List_of_countries_by_tax_rates#Countries )。最初に、 [ で strsplit を使用して削除しようとしましたが、これが得られました。
URL <- "http://en.wikipedia.org/wiki/List_of_countries_by_tax_rates#Countries"
library(XML)
taxes <- readHTMLTable(URL, which=2)
matrix(unlist(strsplit(taxes$Country, "\\[")), ncol = 2, byrow = TRUE)
[,1] [,2]
[1,] "Albania" "1]"
[2,] "Algeria" "3]"
[3,] "Andorra" "citation needed]"
[4,] "Angola" "1]"
[5,] "Argentina" "Armenia"
[6,] "1]" "Aruba"
最終的に、引用を削除したいと思います(番号付きまたは「引用が必要」であり、それらを囲む括弧)。名前だけを保持できるように、2 番目の列に数字を、最初の列に国名を入れたいと思っていましたが、脚注がない場合は列が混在してしまいます。私も使用を検討しましcSplit
たが、そのアプローチでも成功しませんでした。助言がありますか?