問題タブ [rvest]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - rvest Web スクレイピングで「エラー: 長さ (url) == 1 が TRUE でない」理由
Web データをスクレイピングしようとしていますが、最初のステップでログインが必要です。他の Web サイトには正常にログインできましたが、この Web サイトで奇妙なエラーが発生しました。
「submit_form」行を実行すると、次のエラーが表示されます。
unnamed での送信は正しいです。b/c サインイン ボタンに名前が割り当てられていません。どんな助けでも大歓迎です!
r - R での URL ディレクトリ ID のスクレイピング
RでID番号シーケンスを持たないURLディレクトリのすべてのコンテンツをスクレイピングする最良の方法は何ですか? 内部のすべてのコンテンツを取得したいhttp://www.metalmusicarchives.com/album/
のですが、URL 形式はhttp://www.metalmusicarchives.com/album/[BAND NAME]/[ALBUM NAME]
そのディレクトリ内のすべてのコンテンツ用です。彼のアルバムディレクトリ内のすべての文字を説明しようとしましたが、
r - R - rvest または rcurl を使用して Web ページをクリックする方法
このページからデータをダウンロードしたい
データは で簡単にスクレイピングできますrvest
。
コードは次のようになります。
しかし、このような Web ページには問題があります。
+
すべての国のデータを表示するボタンがありますが、デフォルトでは 50 か国のデータだけです。
このコードを使えば 50 か国のデータをスクレイピングできます。
+
ボタンは で作成されているため、ボタンをクリックしてデータをスクレイピングするjavascript
方法があるかどうかを知りたいです。R
r - Last.fm Web API を使用すると、Rvest が「サーバーからの返信がありません」というエラーを返す
さて、私がしようとしているのは、rvest を使用してリクエストに対して返される XML ファイルを解析することにより、Last.FM Web API からアーティストのトップ タグのリストを取得することです。
ただし、XML のコンテンツを取得しようとすると、次のエラーが発生します。
解析用にさまざまなパッケージのさまざまな関数 (getURL、readWeb) を使用してみましたが、すべての artist.get メソッドが空の応答を返します。ただし、ブラウザーで API 要求のまさにその URL にアクセスすることは問題なく機能します。また、user.get メソッドも問題なく機能します。
何が原因でしょうか? 面倒なことは自分で探さなきゃいけないの?リーベストですか?Last.FM?
r - R Web スクレイピング - 「続きを読む」リンクをたどり、rvest を使用して詳細を取得する
rvest パッケージを使用して Web ページから情報をスクレイピングしています。ウェブサイトhttp://www.ratemds.com/doctors/?page2=&specialty=family-gp&page=1の最初の 2 ページをスクレイピングしたい
以下は私のコードです。私が直面している問題は、コメント部分をこすることです。「続きを読む」があるところにそのリンクに行き、すべてのコメントをかき集めたいです。
誰でもこれを行う方法について何か考えを教えてもらえますか? follow_link と jump_to を試しましたが、成功しませんでした。
r - Rでrvestを使用して乱雑なコードを返す
taobao.com から Web テキストを取得したい:
しかし、それは機能しません。結果は次のとおりです。
ps: html 関数に encoding='utf-8' を追加してみます。
r - Rのrvestパッケージに書き込むセレクタはどれですか?
特定の Web サイトのソース コードから情報を抽出しようとしています。
ソースコードには次の行があります。
そこから抽出したい:
Rのパッケージのhtml_nodes
関数でセレクターを指定する方法を知っている人はいますか?rvest
html - R rvest html スクレイピング
次のようなRスクリプトがあります。
そのtest_page
変数は、ページが正しく読み込まれたかどうかを確認するためのものです。問題は、そうでない場合があることです。html_content
変数には、次のような奇妙な HTML コンテンツが含まれることがあります。
それは間違った HTML コンテンツです。そして、それは間違った内容でさえ一貫していません。時々、別の間違ったページが返されます。
Firefox で HTTP リクエストを送信しようとすると、最初の試行で期待どおりに正しい HTML が返されるため、URL 自体は正しいです。
奇妙なことに、html()
関数を使用して行を数回実行しようとすると、最終的には何も変更せずに正しい HTML ページが読み込まれます。RScript で実行を自動化しようとすると、奇妙なことに一貫性がなくなります。
HTML が正しく読み込まれたかどうかを確認する while ループを設定しましたが (div
を使用してタグが見つかった場合html_node()
)、RScript はエラーをスローしますが、RStudio は問題なく実行します。
要約すると、RStudio には一貫性のないhtml()
関数があり、奇妙なページを返すことがありますが、その行を繰り返し実行して強制的に通過できれば、最終的には機能します。しかし、RScript をそのまま使用するとエラーがスローされます。
R バージョン 3.1.3 (2015-03-09) -- 「滑らかな歩道」