R を使用してテキスト マイニングを学習しています。HTML ドキュメント内のすべてのリンクを見つけようとしています。
getHTMLLinks() を試しましたが、次のエラーが表示されます:
url = "https://elections.maryland.gov/elections/2012/election_data/index.html"
getHTMLLinks(url)
character(0)
Warning message:
XML content does not seem to be XML: 'https://elections.maryland.gov/elections/2012/election_data/index.html'
そのため、「rvest」パッケージでリンクを探すのに疲れました。コードは次のとおりです。
links = xml2::read_html(url) %>% #read html link
html_nodes("a") %>% #select a node
html_attr("href") %>% #from a node select all href (hyperlink) tags
.[grep("general.csv",.,ignore.case = T)]
すべてのリンクをベクター形式で提供します。
head(links)
"State_Congressional_Districts_2012_General.csv" "State_Legislative_Districts_2012_General.csv"
[3] "All_By_Precinct_2012_General.csv" "Allegany_County_2012_General.csv"
[5] "Allegany_By_Precinct_2012_General.csv" "Anne_Arundel_County_2012_General.csv"
これらのすべてのリンクは、hrefタグにリストされている名前にすぎません。しかし実際には、これらはすべてテーブルへのハイパーリンクです。
これらのハイパーリンクの名前の代わりに最終的なリンクを抽出するにはどうすればよいか、誰かが私を助けることができれば本当に素晴らしいでしょう?