コードに問題があります。for ループを使用して、html ドキュメント内のすべての「強力な」タグを識別し、html 内の特定の単語の行番号を識別します。行番号が一致する場合は、その行番号をメモしておいてください。これまでのところありますが、強力なタグがある行の外側に単語のインスタンスがある場合、失敗します
url <- readLines("http://afip.gob.ar/contacto")
tagname=NULL
identifier=NULL
IDintag=NULL
rowst=NULL
rowend=NULL
data=NULL
tag <- as.matrix(grep("<strong>",url))
if(length(tag) > 0)
{ID <- grep("Telef|Numero",url)
for(i in 1:length(ID))
{IDintag[i] <- grep(ID[i],tag)
}
for(i in 1:length(IDintag))
{tagname[i] <- tag[IDintag[i]]
}
for(i in 1:length(tagname))
{rowst[i] <- which(grepl(tagname[i],tag))
rowend[i] <- tag[rowst[i] + 1,]-1
data[i] <- toString(url[tagname[i]:rowend[i]])
}
}
これは夢のように機能しますが、強力なタグが発生しない場所で ID 用語が発生する URL に変更すると、次のように失敗します。
url <- readLines("http://www2.le.ac.uk/contact")
tagname=NULL
identifier=NULL
IDintag=NULL
rowst=NULL
rowend=NULL
data=NULL
tag <- as.matrix(grep("<h2>",url))
if(length(tag) > 0)
{ID <- grep("Telef|Numero|phone",url)
for(i in 1:length(ID))
{IDintag[i] <- grep(ID[i],tag)
}
for(i in 1:length(IDintag))
{tagname[i] <- tag[IDintag[i]]
}
for(i in 1:length(tagname))
{rowst[i] <- which(grepl(tagname[i],tag))
rowend[i] <- tag[rowst[i] + 1,]-1
data[i] <- toString(url[tagname[i]:rowend[i]])
}
}
前もって感謝します