問題タブ [rvest]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
154 参照

r - Rを使用して1日で4つのURLを使用してオフサイトでデータをスクレイピングする

以下のように、すべてのステーションのデータが 1 日あたり 4 つの時間リンクに分割されているマレーシア環境省のサイトから、すべての過去の大気汚染指数データをスクレイピングしようとしています。

http://apims.doe.gov.my/apims/hourly1.php?date=20130701 http://apims.doe.gov.my/apims/hourly2.php?date=20130701

上記と同じ「hourly3.php?」と「hourly4.php?」

私はRに少し慣れているだけなので、おそらくXMLまたはscrapeRライブラリを使用してこれを行う最も簡単な方法は何でしょうか?

0 投票する
2 に答える
4580 参照

r - rvest::follow_link() 関数をループして、リンクされた HTML Web ページをスクレイピングする

rvest::follow_link()関数をループして、リンクされた Web ページをスクレイピングするにはどうすればよいですか?

使用事例:

  1. すべてのレゴ ムービーのキャスト メンバーを特定する
  2. すべてのレゴ ムービーキャスト メンバーのリンクをたどる
  3. すべてのキャスト メンバーの各映画 (+ 年) のテーブルを取得します。

必要なセレクターは次のとおりです。

望ましい出力:

0 投票する
1 に答える
784 参照

html - Rのrvestパッケージのhtml関数で使用するセレクタはどれですか?

そのような情報を含む HTML ページを解析したいと思います。

そして、私はR でrvest パッケージを使用しています。このようなコードを使用するときは、このセレクターを使用します。"meta"

すべてのメタのリストを受け取りましたが、特定の 1 つだけに関心があります。contentここからこれらの情報のみをダウンロードするには、どのセレクターを使用すればよいですか。

編集encoding:引数を適切に設定する方法を知っている人はいますか? 次のように指定しているときに、不適切なエンコーディングを受け取りました。

編集:

関数を見つけguess_encoding()、ハドリーの github プロジェクトhttps://github.com/hadley/rvestrepair_encoding()のこの readme.me の概要で

0 投票する
1 に答える
784 参照

html - html_attr は「href」属性ではありません

まず第一に、私はWebスクレイピングの初心者です。

したがって、このウェブサイトで作業してください。私はエピソードについて議論する次の Web ページへのリンクを取得しようとします。SelectorGadget を使用して、トピックのあるフレームを含む html の一部のみを取得することができました

今、トピックへのすべてのリンクを取得したいので、試しました

しかし、私は得るNA。インターネットで同様の例を見ましたが、うまくいくはずです。なぜそうしないのか、何か提案はありますか?

0 投票する
1 に答える
1486 参照

html - rvest を使用して GoodReads ページをスクレイピングする

goodreads の評価とレビュー数をスクレイピングしようとしていますが、NA の結果を得ています。どうしてこれなの?

SelectorGadget は、ホバー オーバー時に平均評価の「スパン スパン」を見つけますが、下部に「有効なパス」が見つかりません。

他のサイト (IMDB、theatlantic.com など) で同じ方法を使用しても問題ありません。

これが私のコードと結果です(html_textをhtml_tagに置き換えてみました)

0 投票する
1 に答える
192 参照

r - readHTMLTable を使用して URL からデータをスクレイピングした後、結果をデータ フレームに変換するにはどうすればよいですか?

私はあらゆる種類のさまざまな操作を試しましたが、私の基本的な問題は次のとおりです。

私のデータは素晴らしく見えますが、データ フレームに強制することはできません。何が私を止めているのかわからない。

0 投票する
2 に答える
2514 参照

html - href 属性の抽出またはノードから文字リストへの変換

ウェブサイトからいくつかの情報を抽出しようとしています

HTML コードの 30 パーツの「リスト」を取得します。「リスト」の各要素から最後のhref属性を抽出したいので、30.要素の場合は

文字列を取得したい

問題はhtml_attr(nodes, "href")機能しません (NA のベクトルを取得します)。だから私は正規表現について考えましたが、問題はnodes文字リストではないということです。

私は試した

しかし、それも機能しません。

私の質問は、HTML用に作成された関数でこのURLを抽出するにはどうすればよいですか? または、XMLNodeSet を文字リストに変換できない場合はどうすればよいですか?

0 投票する
0 に答える
768 参照

r - Google Websearch から情報を抽出するには、R の rvest にどのセレクターを記述しますか?

<h3 class="r">下の画像のようなGoogle Websearchのコンテンツをダウンロードしようとして います

rvestパッケージを使用してRでそのようなセレクターを記述しようとしましたが、結果はありませんでした。セレクターがどのように見えるべきか誰でも知っていますか?

他のパッケージも試しましたが、面倒なコードは好きではありません... (この記事のコードを変更)

これは何とか役立つでしょうか?ドキュメントが非常に貧弱であるため、この機能を理解できません

例