問題タブ [rvest]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
1310 参照

r - R: Rvest - 2 つの要素 (ノード) を同時に取得する

私はいくつかのウェブスクレイピングを行っています。

actual_price を取得し、old_price を別の列に入れる必要があります。

問題は、新しい製品であるため、すべての製品に old_price 要素があるわけではないことです。

そして、それらは同じ長さではないため、data.frame に結合できません。

商品にold_priceがない場合、セルにNAを入れたいです。

Rvestでそれを行う方法はありますか?

期待される結果:

![ここに画像の説明を入力][1]

ご覧のとおり、ここに例があります。1 つの製品には実際の価格と古い価格があり、もう 1 つの製品にはありません。

私はこれをやっています:

すべての製品に価格が設定されていますが、すべての製品に古い価格が設定されているわけではありません。したがって、新しい価格のみの製品については、Old_Price 列に NA を入れたいと思います。

編集1:

状況を再現するコード。Celulares セクション用です。

Gist を実行してデータを取得してください:

編集2:

容器全体(商品ブランド、商品名、新価格、旧価格)を調べてみました。SelectorGadget を使用すると、コンテナー全体が次のようになっていることがわかります"#catalog-items"(間違っている場合は修正してください)。

だから私は使用します:

しかし、質問にあるように、新旧の価格を抽出する方法がわかりません。

どんなヒントでも大歓迎です。

0 投票する
2 に答える
2704 参照

r - R: innerHTML を抽出する rvest

R でrvestを使用して Web ページをスクレイピングし、 node からに相当するものを抽出しinnerHTMLたいと思います。特に、適用する前に改行を改行に変更しhtml_textます。

必要な機能の例:

次の出力を生成します。

これにより、次のrvest 0.2方法で達成できますtoString.XMLNode

新しいものでは、rvest 0.2.0.900これはもう機能しません。

必要な機能は、現在依存しているwrite_xmlパッケージの関数で一般的に利用できます-ファイルへの書き込みを主張する代わりに、その出力を変数に与えることができれば。(aも受け付けません)。xml2rvestwrite_xmltextConnection

回避策として、一時的にファイルに書き込むことができます:

これにより、たとえば、改行タグを改行文字に変換できます。

rvestxml2XMLまたは他のパッケージの既存の関数でこれを行うより良い方法はありますか? 特にハードディスクへの書き込みは避けたいです。

0 投票する
2 に答える
2242 参照

r - rvest: "unknown field names" when attempting to set form

I'm attempting to generate a web form to allow me to scrape data.

which returns

My mistake is to think that I need to set values for the Month and Year fields, but this is a mistake

returns Error: Unknown field names: Month, Year

How do I use rvest to set values in a webform?

0 投票する
1 に答える
3545 参照

r - Rvest でフォームを送信しようとするとエラーが発生します

この SO answerを適応rvestさせて、フォームを生成して結果のページをスクレイピングしようとしています。エラーが発生し続けます。

このエラーを返します

私は何を間違っていますか?

0 投票する
1 に答える
233 参照

xml - Rでftpアドレスの下流のすべてのページを取得する方法

ftp/html サイトからすべてのダウンストリーム ページのリストを取得したい:

私はサイトを持っていると言います:

すべてのページ/ファイルが含まれています:

だから私が始めると:

サイトの「パス」のリストが必要です(つまり、必要な出力は、上記のリンクの例をすべて文字として含むrオブジェクトです)出力は、ネストまたは整頓できます。