問題タブ [rvest]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
292 参照

r - 特定のアイコンを含む HTML テーブル内のセルを検索

特定のアイコンが存在する html テーブルのセルを通知できるコードを探しています。これが私が取り組んでいるものです:

コラム「Pos.」フィールド内のプレーヤーの位置を指定します。これらのいくつかには、追加のアイコンがあります。次のように、ページにこれらのアイコンが存在することを確認できます。

しかし、これは彼らがどこにいるかを教えてくれません。テーブルの「Pos. column」の行 2、10、11、27 にアイコンがあることをコードで返すようにしたいと思います。どうやってやるの?

0 投票する
1 に答える
285 参照

r - サイトのリダイレクトで Rvest ループが壊れる

私の状況: 分析のために特定のデータ要素をスクレイピングする必要がある URL の長い (20,000 行) リストがあります。この例では、勧誘番号である「sol-num」という特定のフィールドを探しています。次の関数を使用して、FedBizOpps にリストされている調達の勧誘番号を取得できます。

今、何千もの URL のリストがあり、それぞれの要請番号を取得して、URL のリストを取得したデータ フレームの新しい列に配置したいと考えています。独自のテスト用に、URL のリストの最初の 10 行を次に示します。

solNum出力を というデータ フレームの変数に格納したいrawので、現在の関数はループを使用しています。

現在、コードを実行すると、上位 5 行の値が格納され、次のエラーが返されます。

さらに調査したところ、問題はリストの次の URL にある可能性が高いことがわかりました: https://www.fbo.gov/spg/USAF/AFMC/OCALCCC/F3YCDW1245A001/listing.htmlこの URL には 2 つの調達があるため、曖昧さ回避ページの

リスト全体が 20,000 行の長さであることを考えると、すべての無効な URL のリストを調べてきれいにする時間はありません。現在の関数で、URL が無効な行などに NA 値を挿入する方法はありますか? このエラーで壊れないようにするにはどうすればよいですか?

また、読んでみると、この操作をループではなくベクトル化された関数として実行する方が高速で効率的である可能性があることがわかります。私の場合、それがどのように見えるかについて誰かヒントを貸してもらえますか?

0 投票する
2 に答える
916 参照

r - rvest を使用してデータ フレーム列から URL を送信する

dogs次のようなデータフレームがあります。

すべての URL を rvest に送信したいのですが、方法がわかりません。

私はこれを試しました

しかし、私はこのエラーが発生しました

0 投票する
1 に答える
2367 参照

r - rcurlを使用してhttpsからhtmlフォームを取得して投稿する

このhttps サイトからフォームを取得して投稿しようとしています。

フォームのユーザー名(RamiLevi)で、パスワードはありません。フォームを取得したら、rvest で投稿して、実際に必要な html にアクセスできます。

ssl.verifypeer=F で試す

フォーム (RamiLevi) の必要なユーザー名で試行しますが、パスワードはありません

0 投票する
0 に答える
58 参照

r - Rのセレクターを使用してDivタグを見つけることができません

rvest パッケージを使用して、いくつかの異なる Web サイト内のデータにアクセスしようとしています。次のような 1 ページで:

http://www.superiorlivestock.com/onlineCatalog/?auctionId=1098&lot=129762&lotIndex=1

div タグにアクセスできません

このタグには、各ロットのテキスト タイトルが含まれています。次のようなコードを試しました:

ただし、見返りにノードを取得できませんでした。同様の方法で他のdivにアクセスできました。何がうまくいかないのですか?

0 投票する
1 に答える
1805 参照

javascript - rvest での位置データのスクレイピング

現在、rvest を使用している URL のリストから緯度/経度のデータを取得しようとしています。各 URL には、特定の場所を示す Google マップが埋め込まれていますが、URL 自体には、API がたどっているパスは表示されません。

ページのソースを見ると、私が求めている部分は次のとおりです。

ここで、LatLng(....) 入力を含む行を取得できれば、いくつかの文字列解析操作を使用して、すべての URL の緯度と経度の値を取得できます。

データを取得するために次のコードを作成しました。

(「map_canvas」セレクターは、selectorGadget を使用して検出されました。ソース全体は、こちらで参照できます)。

私が求めているものを読むためにこれを手に入れるのは最悪の時間です。多くのノードとノードの組み合わせを試しましたが、役に立ちませんでした。私は phantom.js をいじってみましたが、問題はそれが js でレンダリングされた html コンテンツではないことです。私の素人目にはそう見える)。

誰かアドバイスはありますか?

0 投票する
2 に答える
1340 参照

r - rvest パッケージ - 属性が見つからない場合、html_text() が NA 値を格納することは可能ですか?

タイトルが示すように、特定のページで属性を見つけることができない場合、パッケージのhtml_text()関数が値を保存できるかどうかに興味があります。rvestNA

私は現在、199 ページ以上のスクレイプを実行しています (これは正常に動作します。すでにいくつかの変数でテスト済みです)。

現在、199 ページの一部 (136) にのみ存在する値を検索すると、html_text()136 文字列のベクトルのみが返されます。NAs がないと、問題の変数を含むページを特定できないため、これは役に立ちません。

は入力html_atts()を受け取ることができますが、 ではありません。任意のヒント?defaulthtml_text()

どうもありがとう!