問題タブ [rvest]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
4932 参照

html - R の HTML select/option タグから値をスクレイプする

Rを使用してWebサイト(www.majidata.co.ke)からデータをスクレイピングしようとしています(かなり失敗しました).必要!

ライブラリを使用して、次のXMLコードを使用してデータをスクレイピングします。

これにより、(Large) XMLDocumentContent が残ります。Web ページにはドロップダウン リストがあり、そこから値を取得したいと考えています (これは、さまざまな町の名前と ID 番号に関連しています)。抽出したいビットは、数字<option value ="XXX">とそれに続く大文字の名前です。

理想的には、これらを data.frame に入れたいと思います。最初の列は番号で、2 番目の列は名前です。

ここからどこへ行けばいいのかよくわかりません。正規表現を使用してテキスト内のパターンに一致させることを考えていましたが、多くのフォーラムから、これは悪い考えであり、xpath を使用する方が優れている/より効率的であると読みました。xpathApplyどういうわけか使用する必要があると考える以外は、これをどこから始めればよいかよくわかりません。

0 投票する
1 に答える
2642 参照

xml - URL コンテンツのダウンロードで RCurl が機能しない

ページのダウンロードが機能しません。これが私が得ているエラーです:

これが私のコードです:

0 投票する
1 に答える
642 参照

r - rvest エラー: "クラス (アウト) のエラー <- "XMLNodeSet": NULL に属性を設定しようとしました"

新しい rvest パッケージを使用して一連の Web ページをスクレイピングしようとしています。ほとんどの Web ページで機能しますが、特定の文字に表形式のエントリがない場合、エラーが返されます。

Web ページに文字 E のエントリがあるため、このコードは正常に機能します。

Web ページに文字 F のエントリがないため、これは機能しません。エラー メッセージは、「クラス (アウト) のエラー <- "XMLNodeSet" : NULL に属性を設定しようとしています」です。

助言がありますか。前もって感謝します。

0 投票する
4 に答える
12678 参照

xml - R: XML パッケージの代わりに rvest パッケージを使用して URL からリンクを取得する

XML パッケージを使用して、この urlからリンクを取得します。

この方法は非常に効率的ですが、私rvestXML. 試しhtml_nodesてみhtml_attrsましたが、うまくいきません。

0 投票する
1 に答える
615 参照

r - ループを使用した R および Web スクレイピング

でウェブサイトをスクレイピングしていますurls http://example.com/post/X。ここで、X は 1:5000 からの数字で、次のrvestコードを使用して スクレイピングできます。

Web サイトからすべてのページを取得し、スクレイピングしたデータをすべてのページが新しい行にあるテーブルに配置するコードが必要です。助けてください