問題タブ [rvest]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
html - R の HTML select/option タグから値をスクレイプする
Rを使用してWebサイト(www.majidata.co.ke)からデータをスクレイピングしようとしています(かなり失敗しました).必要!
ライブラリを使用して、次のXML
コードを使用してデータをスクレイピングします。
これにより、(Large) XMLDocumentContent が残ります。Web ページにはドロップダウン リストがあり、そこから値を取得したいと考えています (これは、さまざまな町の名前と ID 番号に関連しています)。抽出したいビットは、数字<option value ="XXX">
とそれに続く大文字の名前です。
理想的には、これらを data.frame に入れたいと思います。最初の列は番号で、2 番目の列は名前です。
等
ここからどこへ行けばいいのかよくわかりません。正規表現を使用してテキスト内のパターンに一致させることを考えていましたが、多くのフォーラムから、これは悪い考えであり、xpath を使用する方が優れている/より効率的であると読みました。xpathApply
どういうわけか使用する必要があると考える以外は、これをどこから始めればよいかよくわかりません。
xml - URL コンテンツのダウンロードで RCurl が機能しない
ページのダウンロードが機能しません。これが私が得ているエラーです:
これが私のコードです:
r - rvest エラー: "クラス (アウト) のエラー <- "XMLNodeSet": NULL に属性を設定しようとしました"
新しい rvest パッケージを使用して一連の Web ページをスクレイピングしようとしています。ほとんどの Web ページで機能しますが、特定の文字に表形式のエントリがない場合、エラーが返されます。
Web ページに文字 E のエントリがあるため、このコードは正常に機能します。
Web ページに文字 F のエントリがないため、これは機能しません。エラー メッセージは、「クラス (アウト) のエラー <- "XMLNodeSet" : NULL に属性を設定しようとしています」です。
助言がありますか。前もって感謝します。
xml - R: XML パッケージの代わりに rvest パッケージを使用して URL からリンクを取得する
XML パッケージを使用して、この urlからリンクを取得します。
この方法は非常に効率的ですが、私rvest
はXML
. 試しhtml_nodes
てみhtml_attrs
ましたが、うまくいきません。
r - ループを使用した R および Web スクレイピング
でウェブサイトをスクレイピングしていますurls http://example.com/post/X
。ここで、X は 1:5000 からの数字で、次のrvest
コードを使用して
スクレイピングできます。
Web サイトからすべてのページを取得し、スクレイピングしたデータをすべてのページが新しい行にあるテーブルに配置するコードが必要です。助けてください