問題タブ [rvest]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
2016 参照

r - このサイトからデータをスクレイピングする方法に困惑しました (R を使用)

このサイトから R を使用してデータをスクレイピングしようとしています: http://www.soccer24.com/kosovo/superliga/results/#

私は次のことができます:

しかし、実際にデータにアクセスする方法に困惑しています。これは、ウェブサイト上の実際のデータが Javascript によって生成されているように見えるためです。私にできることは

しかし、それは奇妙なテキストの長いぼやけを与えます(データは含まれていますが、奇妙なコードが散在しており、それをどのように解析するかはまったく明確ではありません.

抽出したいのは、すべての試合の試合データ (日付、時間、チーム、結果) です。このサイトのその他のデータは必要ありません。

このサイトからそのデータを抽出する方法について、誰かヒントを提供できますか?

0 投票する
2 に答える
3762 参照

r - このデータをスクレイピングするにはどうすればよいですか?

このページから統計をスクレイピングしたい:

具体的には、Stuart の顔写真の下にあるテーブルのデータを取得したいと考えています。「スチュアート・アップルビー - 2015 STATS PGA TOUR」の見出しです。

rvestをSelector Gadget ( http://selectoradget.com/ ) と組み合わせて使用​​しようとしています。

たとえば、「Recap -- Rank -- Additional Stats」という行が一番上にないテーブルを取得する必要があります

「Recap -- Rank -- Add'l Stats」という行を含むテーブルを取得する必要があります。

どちらもしません。

Webスクレイピングに関しては、私はまったくの初心者です。その Web ページの [ソースを表示] をクリックすると、テーブルに含まれるデータが表示されません。

テーブルが開始されるべきだと思うソースコードには、次のコードがあります。

そのため、関数にアクセスできない場所にテーブルが格納されているようです (Json? Jquery? Javascript? これらの用語はここで適用されますか?) html()rvestこのデータを取得するために使用する方法はありますか? rvestこの方法で保存されているデータを取得するのに相当するものはありますか?

ありがとう。

0 投票する
0 に答える
523 参照

html - rvest パッケージを使用して html ページから属性を抽出する

このサイトからデータを抽出しようとしています http://www.mycity4kids.com/Delhi-NCR/Schools_bl

ここで必要な情報は、上記のコード スニペットの 4 行目、つまり「/Delhi-NCR/Schools/Amazon-Public-School_Sector-56-Gurgaon/5038_bd」にあります。そうする方法がわかりません。
できるだけ早く行う方法を提案してください!

0 投票する
1 に答える
168 参照

r - サイトによって生成されたドキュメントをキャッチする方法 (R を使用)

次のように pdf ファイルをダウンロードしようとしています (これは商用サイトであるため、以下の URL、ユーザー名、およびパスワードを置き換える必要がありました)。

これは、企業の相互作用に関するデータを含む Web サイトです。APIを知っているので、興味のある各レポートのページ名を見つけました。ページには「pdfをダウンロード」ボタンがあります。このボタンをクリックすると、サイトは動的にレポートを pdf 形式で生成し、レポートを返します (「97da08491e3e41447f591c2b668c0602.pdf」のようなランダムな名前で)。これには wkhtml2pdf を使用していると思います。次のコードを使用してボタンをクリックします。

「pdf をダウンロード」ボタンをクリックすると、サイトによってドキュメントが生成され、Chrome によって保存されます。(ランダムな名前は毎回異なり、download.file()取得するようなものを使用する方法はありません)ドキュメントがこのランダムな名前で保存されることを除いて、これは正常に機能します。むしろ、サイトから返された pdf をキャプチャし、より有益な名前を使用して保存したい (これを何百回も行う必要があるため、すべての pdf を手動で順番に処理する必要はありません)特定の企業に関するレポートを見つけるには)。

だから、私の質問は次のとおりです。サイトによって動的に生成されて返される pdf をキャプチャし、自分で選択した名前で保存するにはどうすればよいですか?

(サイトへのリンクを提供できないことをお詫びしますが、これは私が公に共有することを許可されていない独自のサイトです。ただし、この問題がより多くの人やサイトに役立つことを期待しています)。

0 投票する
2 に答える
3368 参照

r - Rを使用したWebスクレイピングパスワードで保護されたWebサイト

Rを使用してyammerデータをWebスクレイピングしたいのですが、そのためにはまずこのページにログインする必要があります(これは私が作成したアプリの認証です)。

https://www.yammer.com/dialog/authenticate?client_id=iVGCK1tOhbZGS7zC8dPjg

このページにログインすると、yammer データを取得できますが、これはすべて、標準の yammer URL ( https://www.yammer.com/api/v1/messages/received.json )によってブラウザーにあります。

同様の質問を読み、提案を試みましたが、それでもこの問題を解決できません。

httr,RSelenium,rvest+Selector ガジェットを使ってみました。

ここでの最終目標は、Rですべてを行うことです(データの取得、クリーニング、感情分析...クリーニングと感情分析の部分は完了しましたが、現時点ではデータの取得部分は手動であり、Rから処理することで自動化したいと考えています)

1.httrを使って試す:

対応する結果: 応答 [https://www.yammer.com/dialog/authenticate?client_id=iVGCK1tOhbZGS7zC8dPjg] Date: 2015-04-27 12:25 Status: 200 Content-Type: text/html; charset=utf-8 サイズ: 15.7 kB このページのコンテンツは、ログイン ページを開いたものの、認証されなかったことを示しています。

2.セレクターガジェット+rvestでお試し

この方法を使用してウィキペディアをスクレイピングしようとしましたが、セレクターガジェットが提供するhtmlタグを呼び出す前に認証が必要になるため、yammerに適用できませんでした。

3.RSeleniumを使ってみる

標準のブラウザとphantomjsを使用してこれを試しましたが、いくつかのエラーが発生しました

remDr <- remoteDriver$new()

remDr$open() [1] 「リモート サーバーに接続しています」 RCurl 呼び出しで未定義のエラーが発生しました。queryRD(paste0(serverURL, "/session"), "POST", qdata = toJSON(serverOpts)) のエラー:

phantom() のエラー: PhantomJS バイナリが見つかりません。

0 投票する
1 に答える
376 参照

r - Rのrvestでのサーバーエラー

私はウェブスクレイピングの専門家ではありませんが、R で rvest を使用して楽しんできました。今日、JeFit という特定のフィットネス サイトをスクレイピングしようとしましたが、次のエラーが発生しました。ここに私の入力と出力があります:

私が試した他のサイトでは rvest が機能するのに、このサイトでは機能しない理由を理解できません。どんな助けでも大歓迎です。

0 投票する
2 に答える
12572 参照

r - 無限スクロールの動的 e コマース ページをスクレイピングする

私はrvestスクレイピングを行うためにRで使用しています。HTML と CSS はある程度知っています。

URI のすべての製品の価格を取得したい:

http://www.linio.com.co/tecnologia/celulares-telefonia-gps/

ページを下にスクロールすると、新しいアイテムがロードされます。

私がこれまでに行ったこと:

そして、私は必要なものを手に入れましたが、最初の25個の要素(デフォルトでロードされます)だけです。

質問: この動的セクションのすべての要素を取得するにはどうすればよいですか?

私は、すべての要素が読み込まれるまでページをスクロールしてから、html(URL) を使用できると思います。しかし、これは大変な作業のようです (別のセクションでこれを行う予定です)。プログラムによる回避策が必要です。

0 投票する
1 に答える
1476 参照

r - 欠落しているノードを回収 --> NA

R で rvest を使用して html ドキュメント内のノードを検索しようとしています。以下のコードでは、「s_BadgeTop*」が欠落している場合に NULL または NA を返す方法を知りたいです。学術目的のみです。

次の構造の data.frame が必要です。

  1. ジョン (トップ 1000 コメンタリスト)
  2. メアリー・ナ
  3. キャンディス (トップ 500 コメンタリスト)

私はこのコードを試しました:

status[is.na(status)] <- "NA" は機能しません。

私はこの出力を得る:

  1. ジョン (トップ 1000 コメンタリスト)
  2. メアリー (トップ 500 コメンタリスト)
  3. キャンディス (トップ 1000 コメンタリスト)

ありがとう!

0 投票する
1 に答える
2200 参照

r - R Rvest for() およびエラー サーバー エラー: (503) サービスを利用できません

私はウェブスクレイピングは初めてですがrvest、R での使用に興奮しています。それを使用して、企業の特定のデータをスクレイピングしようとしました。for ループ (171 個の URL) を作成しましたが、実行中にエラーが発生して 6 番目または 7 番目の URL で停止します。

7 番目の URL からループを開始すると、さらに 2 つまたは 3 つ進み、同じエラーで再び停止します。私のループ

このエラーを回避する方法があるかもしれません。事前に感謝します。助けていただければ幸いです。

UPD 次のコードで、最後に成功したものからデータをフェッチするループを再開しようとしていますが、repeat()無限にループしています。いくつかの提案を期待しています。

またはwhile()

While()動作しますが、あまり良くなく、遅すぎます ((