問題タブ [rvest]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - R: Rvest - 2 つの要素 (ノード) を同時に取得する
私はいくつかのウェブスクレイピングを行っています。
actual_price を取得し、old_price を別の列に入れる必要があります。
問題は、新しい製品であるため、すべての製品に old_price 要素があるわけではないことです。
そして、それらは同じ長さではないため、data.frame に結合できません。
商品にold_priceがない場合、セルにNAを入れたいです。
Rvestでそれを行う方法はありますか?
期待される結果:
![ここに画像の説明を入力][1]
ご覧のとおり、ここに例があります。1 つの製品には実際の価格と古い価格があり、もう 1 つの製品にはありません。
私はこれをやっています:
すべての製品に価格が設定されていますが、すべての製品に古い価格が設定されているわけではありません。したがって、新しい価格のみの製品については、Old_Price 列に NA を入れたいと思います。
編集1:
状況を再現するコード。Celulares セクション用です。
Gist を実行してデータを取得してください:
編集2:
容器全体(商品ブランド、商品名、新価格、旧価格)を調べてみました。SelectorGadget を使用すると、コンテナー全体が次のようになっていることがわかります"#catalog-items"
(間違っている場合は修正してください)。
だから私は使用します:
しかし、質問にあるように、新旧の価格を抽出する方法がわかりません。
どんなヒントでも大歓迎です。
r - R: innerHTML を抽出する rvest
R でrvestを使用して Web ページをスクレイピングし、 node からに相当するものを抽出しinnerHTML
たいと思います。特に、適用する前に改行を改行に変更しhtml_text
ます。
必要な機能の例:
次の出力を生成します。
これにより、次のrvest 0.2
方法で達成できますtoString.XMLNode
新しいものでは、rvest 0.2.0.900
これはもう機能しません。
必要な機能は、現在依存しているwrite_xml
パッケージの関数で一般的に利用できます-ファイルへの書き込みを主張する代わりに、その出力を変数に与えることができれば。(aも受け付けません)。xml2
rvest
write_xml
textConnection
回避策として、一時的にファイルに書き込むことができます:
これにより、たとえば、改行タグを改行文字に変換できます。
rvest
、xml2
、XML
または他のパッケージの既存の関数でこれを行うより良い方法はありますか? 特にハードディスクへの書き込みは避けたいです。
r - rvest: "unknown field names" when attempting to set form
I'm attempting to generate a web form to allow me to scrape data.
which returns
My mistake is to think that I need to set values for the Month
and Year
fields, but this is a mistake
returns Error: Unknown field names: Month, Year
How do I use rvest
to set values in a webform?
xml - Rでftpアドレスの下流のすべてのページを取得する方法
ftp/html サイトからすべてのダウンストリーム ページのリストを取得したい:
私はサイトを持っていると言います:
すべてのページ/ファイルが含まれています:
だから私が始めると: