問題タブ [rvest]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

2417 問題

0 投票する

2 に答える

154 参照

r - Rを使用して1日で4つのURLを使用してオフサイトでデータをスクレイピングする

以下のように、すべてのステーションのデータが 1 日あたり 4 つの時間リンクに分割されているマレーシア環境省のサイトから、すべての過去の大気汚染指数データをスクレイピングしようとしています。

http://apims.doe.gov.my/apims/hourly1.php?date=20130701 http://apims.doe.gov.my/apims/hourly2.php?date=20130701

上記と同じ「hourly3.php?」と「hourly4.php?」

私はRに少し慣れているだけなので、おそらくXMLまたはscrapeRライブラリを使用してこれを行う最も簡単な方法は何でしょうか?

r web-scraping rvest

2015-03-03T02:50:18.033

0 投票する

2 に答える

4580 参照

r - rvest::follow_link() 関数をループして、リンクされた HTML Web ページをスクレイピングする

rvest::follow_link()関数をループして、リンクされた Web ページをスクレイピングするにはどうすればよいですか?

使用事例：

すべてのレゴムービーのキャストメンバーを特定する
すべてのレゴムービーキャストメンバーのリンクをたどる
すべてのキャストメンバーの各映画 (+ 年) のテーブルを取得します。

必要なセレクターは次のとおりです。

望ましい出力:

r web-scraping rvest

2015-03-04T20:01:47.083

0 投票する

1 に答える

784 参照

html - Rのrvestパッケージのhtml関数で使用するセレクタはどれですか?

そのような情報を含む HTML ページを解析したいと思います。

そして、私はR でrvest パッケージを使用しています。このようなコードを使用するときは、このセレクターを使用します。"meta"

すべてのメタのリストを受け取りましたが、特定の 1 つだけに関心があります。contentここからこれらの情報のみをダウンロードするには、どのセレクターを使用すればよいですか。

編集encoding:引数を適切に設定する方法を知っている人はいますか? 次のように指定しているときに、不適切なエンコーディングを受け取りました。

編集：

関数を見つけguess_encoding()、ハドリーの github プロジェクトhttps://github.com/hadley/rvestrepair_encoding()のこの readme.me の概要で

html r parsing rvest

2015-03-09T16:28:04.023

0 投票する

1 に答える

784 参照

html - html_attr は「href」属性ではありません

まず第一に、私はWebスクレイピングの初心者です。

したがって、このウェブサイトで作業してください。私はエピソードについて議論する次の Web ページへのリンクを取得しようとします。SelectorGadget を使用して、トピックのあるフレームを含む html の一部のみを取得することができました

今、トピックへのすべてのリンクを取得したいので、試しました

しかし、私は得るNA。インターネットで同様の例を見ましたが、うまくいくはずです。なぜそうしないのか、何か提案はありますか？

html r web-scraping rvest

2015-03-10T21:36:05.897

0 投票する

1 に答える

1486 参照

html - rvest を使用して GoodReads ページをスクレイピングする

goodreads の評価とレビュー数をスクレイピングしようとしていますが、NA の結果を得ています。どうしてこれなの？

SelectorGadget は、ホバーオーバー時に平均評価の「スパンスパン」を見つけますが、下部に「有効なパス」が見つかりません。

他のサイト (IMDB、theatlantic.com など) で同じ方法を使用しても問題ありません。

これが私のコードと結果です（html_textをhtml_tagに置き換えてみました）

html r web-scraping rvest

2015-03-11T21:14:19.553

0 投票する

1 に答える

192 参照

r - readHTMLTable を使用して URL からデータをスクレイピングした後、結果をデータフレームに変換するにはどうすればよいですか?

私はあらゆる種類のさまざまな操作を試しましたが、私の基本的な問題は次のとおりです。

私のデータは素晴らしく見えますが、データフレームに強制することはできません。何が私を止めているのかわからない。

r xml-parsing rvest

2015-03-12T19:20:07.290

0 投票する

2 に答える

2514 参照

html - href 属性の抽出またはノードから文字リストへの変換

ウェブサイトからいくつかの情報を抽出しようとしています

HTML コードの 30 パーツの「リスト」を取得します。「リスト」の各要素から最後のhref属性を抽出したいので、30.要素の場合は

文字列を取得したい

問題はhtml_attr(nodes, "href")機能しません (NA のベクトルを取得します)。だから私は正規表現について考えましたが、問題はnodes文字リストではないということです。

私は試した

しかし、それも機能しません。

私の質問は、HTML用に作成された関数でこのURLを抽出するにはどうすればよいですか? または、XMLNodeSet を文字リストに変換できない場合はどうすればよいですか?

html r rvest

2015-03-13T21:12:03.080

0 投票する

0 に答える

768 参照

r - Google Websearch から情報を抽出するには、R の rvest にどのセレクターを記述しますか?

<h3 class="r">下の画像のようなGoogle Websearchのコンテンツをダウンロードしようとしています

rvestパッケージを使用してRでそのようなセレクターを記述しようとしましたが、結果はありませんでした。セレクターがどのように見えるべきか誰でも知っていますか?

他のパッケージも試しましたが、面倒なコードは好きではありません... (この記事のコードを変更)

これは何とか役立つでしょうか？ドキュメントが非常に貧弱であるため、この機能を理解できません

r selector rvest

2015-03-14T18:41:46.613

1 2 3 4 5 6 7 8 9 10