問題タブ [rvest]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - Rを使用して1日で4つのURLを使用してオフサイトでデータをスクレイピングする
以下のように、すべてのステーションのデータが 1 日あたり 4 つの時間リンクに分割されているマレーシア環境省のサイトから、すべての過去の大気汚染指数データをスクレイピングしようとしています。
http://apims.doe.gov.my/apims/hourly1.php?date=20130701 http://apims.doe.gov.my/apims/hourly2.php?date=20130701
上記と同じ「hourly3.php?」と「hourly4.php?」
私はRに少し慣れているだけなので、おそらくXMLまたはscrapeRライブラリを使用してこれを行う最も簡単な方法は何でしょうか?
r - rvest::follow_link() 関数をループして、リンクされた HTML Web ページをスクレイピングする
rvest::follow_link()
関数をループして、リンクされた Web ページをスクレイピングするにはどうすればよいですか?
使用事例:
- すべてのレゴ ムービーのキャスト メンバーを特定する
- すべてのレゴ ムービーキャスト メンバーのリンクをたどる
- すべてのキャスト メンバーの各映画 (+ 年) のテーブルを取得します。
必要なセレクターは次のとおりです。
望ましい出力:
html - Rのrvestパッケージのhtml関数で使用するセレクタはどれですか?
そのような情報を含む HTML ページを解析したいと思います。
そして、私はR でrvest
パッケージを使用しています。このようなコードを使用するときは、このセレクターを使用します。"meta"
すべてのメタのリストを受け取りましたが、特定の 1 つだけに関心があります。content
ここからこれらの情報のみをダウンロードするには、どのセレクターを使用すればよいですか。
編集encoding
:引数を適切に設定する方法を知っている人はいますか? 次のように指定しているときに、不適切なエンコーディングを受け取りました。
編集:
関数を見つけguess_encoding()
、ハドリーの github プロジェクトhttps://github.com/hadley/rvestrepair_encoding()
のこの readme.me の概要で
html - html_attr は「href」属性ではありません
まず第一に、私はWebスクレイピングの初心者です。
したがって、このウェブサイトで作業してください。私はエピソードについて議論する次の Web ページへのリンクを取得しようとします。SelectorGadget を使用して、トピックのあるフレームを含む html の一部のみを取得することができました
今、トピックへのすべてのリンクを取得したいので、試しました
しかし、私は得るNA
。インターネットで同様の例を見ましたが、うまくいくはずです。なぜそうしないのか、何か提案はありますか?
html - rvest を使用して GoodReads ページをスクレイピングする
goodreads の評価とレビュー数をスクレイピングしようとしていますが、NA の結果を得ています。どうしてこれなの?
SelectorGadget は、ホバー オーバー時に平均評価の「スパン スパン」を見つけますが、下部に「有効なパス」が見つかりません。
他のサイト (IMDB、theatlantic.com など) で同じ方法を使用しても問題ありません。
これが私のコードと結果です(html_textをhtml_tagに置き換えてみました)
r - readHTMLTable を使用して URL からデータをスクレイピングした後、結果をデータ フレームに変換するにはどうすればよいですか?
私はあらゆる種類のさまざまな操作を試しましたが、私の基本的な問題は次のとおりです。
私のデータは素晴らしく見えますが、データ フレームに強制することはできません。何が私を止めているのかわからない。
html - href 属性の抽出またはノードから文字リストへの変換
ウェブサイトからいくつかの情報を抽出しようとしています
HTML コードの 30 パーツの「リスト」を取得します。「リスト」の各要素から最後のhref属性を抽出したいので、30.要素の場合は
文字列を取得したい
問題はhtml_attr(nodes, "href")
機能しません (NA のベクトルを取得します)。だから私は正規表現について考えましたが、問題はnodes
文字リストではないということです。
私は試した
しかし、それも機能しません。
私の質問は、HTML用に作成された関数でこのURLを抽出するにはどうすればよいですか? または、XMLNodeSet を文字リストに変換できない場合はどうすればよいですか?
r - Google Websearch から情報を抽出するには、R の rvest にどのセレクターを記述しますか?
<h3 class="r">
下の画像のようなGoogle Websearchのコンテンツをダウンロードしようとして
います
rvest
パッケージを使用してRでそのようなセレクターを記述しようとしましたが、結果はありませんでした。セレクターがどのように見えるべきか誰でも知っていますか?
他のパッケージも試しましたが、面倒なコードは好きではありません... (この記事のコードを変更)
これは何とか役立つでしょうか?ドキュメントが非常に貧弱であるため、この機能を理解できません