問題タブ [rvest]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
9115 参照

r - rvest Web スクレイピングで「エラー: 長さ (url) == 1 が TRUE でない」理由

Web データをスクレイピングしようとしていますが、最初のステップでログインが必要です。他の Web サイトには正常にログインできましたが、この Web サイトで奇妙なエラーが発生しました。

「submit_form」行を実行すると、次のエラーが表示されます。

unnamed での送信は正しいです。b/c サインイン ボタンに名前が割り当てられていません。どんな助けでも大歓迎です!

0 投票する
1 に答える
207 参照

r - R での URL ディレクトリ ID のスクレイピング

RでID番号シーケンスを持たないURLディレクトリのすべてのコンテンツをスクレイピングする最良の方法は何ですか? 内部のすべてのコンテンツを取得したいhttp://www.metalmusicarchives.com/album/のですが、URL 形式はhttp://www.metalmusicarchives.com/album/[BAND NAME]/[ALBUM NAME]そのディレクトリ内のすべてのコンテンツ用です。彼のアルバムディレクトリ内のすべての文字を説明しようとしましたが、

0 投票する
1 に答える
10709 参照

r - R - rvest または rcurl を使用して Web ページをクリックする方法

このページからデータをダウンロードしたい

データは で簡単にスクレイピングできますrvest

コードは次のようになります。

しかし、このような Web ページには問題があります。

+すべての国のデータを表示するボタンがありますが、デフォルトでは 50 か国のデータだけです。

このコードを使えば 50 か国のデータをスクレイピングできます。

+ボタンは で作成されているため、ボタンをクリックしてデータをスクレイピングするjavascript方法があるかどうかを知りたいです。R

0 投票する
0 に答える
664 参照

r - Last.fm Web API を使用すると、Rvest が「サーバーからの返信がありません」というエラーを返す

さて、私がしようとしているのは、rvest を使用してリクエストに対して返される XML ファイルを解析することにより、Last.FM Web API からアーティストのトップ タグのリストを取得することです。

ただし、XML のコンテンツを取得しようとすると、次のエラーが発生します。

解析用にさまざまなパッケージのさまざまな関数 (getURL、readWeb) を使用してみましたが、すべての artist.get メソッドが空の応答を返します。ただし、ブラウザーで API 要求のまさにその URL にアクセスすることは問題なく機能します。また、user.get メソッドも問題なく機能します。

何が原因でしょうか? 面倒なことは自分で探さなきゃいけないの?リーベストですか?Last.FM?

0 投票する
0 に答える
618 参照

r - R Web スクレイピング - 「続きを読む」リンクをたどり、rvest を使用して詳細を取得する

rvest パッケージを使用して Web ページから情報をスクレイピングしています。ウェブサイトhttp://www.ratemds.com/doctors/?page2=&specialty=family-gp&page=1の最初の 2 ページをスクレイピングしたい

以下は私のコードです。私が直面している問題は、コメント部分をこすることです。「続きを読む」があるところにそのリンクに行き、すべてのコメントをかき集めたいです。

誰でもこれを行う方法について何か考えを教えてもらえますか? follow_link と jump_to を試しましたが、成功しませんでした。

0 投票する
2 に答える
213 参照

r - Rでrvestを使用して乱雑なコードを返す

taobao.com から Web テキストを取得したい:

しかし、それは機能しません。結果は次のとおりです。

ps: html 関数に encoding='utf-8' を追加してみます。

0 投票する
1 に答える
689 参照

r - Rのrvestパッケージに書き込むセレクタはどれですか?

特定の Web サイトのソース コードから情報を抽出しようとしています。

ソースコードには次の行があります。

そこから抽出したい:

Rのパッケージのhtml_nodes関数でセレクターを指定する方法を知っている人はいますか?rvest

0 投票する
2 に答える
934 参照

html - R rvest html スクレイピング

次のようなRスクリプトがあります。

そのtest_page変数は、ページが正しく読み込まれたかどうかを確認するためのものです。問題は、そうでない場合があることです。html_content変数には、次のような奇妙な HTML コンテンツが含まれることがあります。

それは間違った HTML コンテンツです。そして、それは間違った内容でさえ一貫していません。時々、別の間違ったページが返されます。

Firefox で HTTP リクエストを送信しようとすると、最初の試行で期待どおりに正しい HTML が返されるため、URL 自体は正しいです。

奇妙なことに、html()関数を使用して行を数回実行しようとすると、最終的には何も変更せずに正しい HTML ページが読み込まれます。RScript で実行を自動化しようとすると、奇妙なことに一貫性がなくなります。

HTML が正しく読み込まれたかどうかを確認する while ループを設定しましたが (divを使用してタグが見つかった場合html_node())、RScript はエラーをスローしますが、RStudio は問題なく実行します。

要約すると、RStudio には一貫性のないhtml()関数があり、奇妙なページを返すことがありますが、その行を繰り返し実行して強制的に通過できれば、最終的には機能します。しかし、RScript をそのまま使用するとエラーがスローされます。

R バージョン 3.1.3 (2015-03-09) -- 「滑らかな歩道」