2

RのHTMLコードの定義リストからデータを抽出しようとしています。これまでのところ、次のことを行いました。

url <- "myurl"
doc <- htmlParse(url)

xpathSApply次に、リストデータを抽出するために使用したいと思います。しかし、私はエラーを返し続けます...私はウェブスクレイピングとHTMLの概念に慣れていないので、関数がスクレイピングするデータをどのように見つけるか完全にはわかりません.

xpathに渡す を見つけるにはどうすればよいxpathSApplyですか?

URL の例はhttp://opencorporates.com/companies/gb/06309283 です。

会社名、番号、住所、取締役などに関するデータを、クエリごとに 1 つの観察結果にスクレイピングしたいと考えています。

4

3 に答える 3

1

Firefox には、FireBug と呼ばれる素晴らしいプラグインと、FirePath と呼ばれる拡張機能があります。それを使用して、Web ページの任意の要素を右クリックし、[検査] をクリックします。に渡される XPath が表示されますxpathSApply

于 2012-12-18T18:31:18.977 に答える
0

私が必要としていた構文は、xpathSAppply 関数で使用するための '//node[@class="myclass"]' であることが判明しました。乾杯

于 2012-12-19T12:10:45.183 に答える
0

Firebug を使用できない場合は、SelectorGadgetと呼ばれる気の利いたブックマークレットがあります。これはほとんど同じことを行い、IE9 で動作するはずです。

于 2012-12-18T22:11:39.387 に答える