r - Rを使用してhtml定義リストから変数名と値をスクレイピングする

Question

RのHTMLコードの定義リストからデータを抽出しようとしています。これまでのところ、次のことを行いました。

url <- "myurl"
doc <- htmlParse(url)

xpathSApply次に、リストデータを抽出するために使用したいと思います。しかし、私はエラーを返し続けます...私はウェブスクレイピングとHTMLの概念に慣れていないので、関数がスクレイピングするデータをどのように見つけるか完全にはわかりません.

xpathに渡すを見つけるにはどうすればよいxpathSApplyですか?

会社名、番号、住所、取締役などに関するデータを、クエリごとに 1 つの観察結果にスクレイピングしたいと考えています。

score 1 · Accepted Answer

Firefox には、FireBug と呼ばれる素晴らしいプラグインと、FirePath と呼ばれる拡張機能があります。それを使用して、Web ページの任意の要素を右クリックし、[検査] をクリックします。に渡される XPath が表示されますxpathSApply。

score 0 · Accepted Answer

私が必要としていた構文は、xpathSAppply 関数で使用するための '//node[@class="myclass"]' であることが判明しました。乾杯

score 0 · Accepted Answer

Firebug を使用できない場合は、SelectorGadgetと呼ばれる気の利いたブックマークレットがあります。これはほとんど同じことを行い、IE9 で動作するはずです。

3 に答える 3