RのHTMLコードの定義リストからデータを抽出しようとしています。これまでのところ、次のことを行いました。
url <- "myurl"
doc <- htmlParse(url)
xpathSApply
次に、リストデータを抽出するために使用したいと思います。しかし、私はエラーを返し続けます...私はウェブスクレイピングとHTMLの概念に慣れていないので、関数がスクレイピングするデータをどのように見つけるか完全にはわかりません.
xpath
に渡す を見つけるにはどうすればよいxpathSApply
ですか?
URL の例はhttp://opencorporates.com/companies/gb/06309283 です。
会社名、番号、住所、取締役などに関するデータを、クエリごとに 1 つの観察結果にスクレイピングしたいと考えています。