問題タブ [rvest]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - エラー: 関数 "read_html" が見つかりませんでした
私はこのコードを使用します
そして、私はこのエラーを取り戻します
これで何がうまくいかないのですか?
このような複数のリンクの場合も
私はこれを受け取ります:
どうすれば動作させることができますか?このリンクを txt ファイルに入れるとどうなりますか?
xml - rvest/xml2 での R2HTML の使用
新しいパッケージ XML2 に関するこのブログ投稿を読んでいました。以前はrvest
に依存してXML
いましたが、(少なくとも) 2 つのパッケージの関数を組み合わせることで、多くの作業が簡単になりました。たとえば、(現在は を呼び出している)htmlParse
を使用して HTML ページを読み取れない場合は、XML パッケージから使用していました。 .html
read_html
例としてこれを参照してください。解析されたページで、などのrvest
関数を使用できます。現在、これに依存することはできません (少なくとも表面上では)。html_nodes
html_attr
rvest
XML2
XML と XML2 の基本的な違いは何だろうと思っていました。前述の投稿で XML パッケージの作成者を特定する以外に、パッケージの作成者は XML と XML2 の違いについて説明していません。
もう一つの例:
アップデート:
Windows 8、R 3.2.1、および RStudio 0.99.441 を使用しています。
html - R - タグが欠落している場合に rvest を使用して HTML テーブルをスクレイピングする
rvest を使用して Web サイトから HTML テーブルをスクレイピングしようとしています。<tr>
唯一の問題は、最初の行を除いて、スクレイピングしようとしているテーブルにタグがないことです。次のようになります。
等々。したがって、次のコードを使用すると、データ フレームの最初の行しか取得できません。
<tr>
これを変更して、開始タグがなくても行が行であることを html_table に理解させるにはどうすればよいですか? または、これについてもっと良い方法はありますか?
r - rvest パッケージをインストールできません
R バージョン 3.1.2 の rvest パッケージをインストールする必要があります (2014-10-31)
次のエラーが表示されます。
R パッケージ rvest をインストールする方法についてのアイデアはありますか?
r - R パッケージ `stringr` 使用時のアトミック ベクトル エラー
rvest
パッケージを使用して、Web ページからガソリン価格を取得したいと考えています。ただし、数値をプルすることはできず、html クラスでプルする必要があります.sp_p
。
プルガス価格:
出力:
stringr
今、パッケージを使用してWebスクレイプから数字を抽出したいのですが、原子ベクトルではないstringr
ため使用できません。price
どうすればこれを回避できますか?
html - rvest を使用して、h の後にすべての p をスクレイピングしますか? (または他の R パッケージ)
私はhtmlスクレイピングの世界に不慣れで、Rでrvestを使用して、特定の見出しの下に段落を引き込むのに苦労しています.
設定が比較的似ている複数のサイトから情報を収集したいと考えています。見出しはすべて同じですが、見出しの下の段落数は変更できます。次のコードを使用して、見出しの下の特定の段落をスクレイピングできました。
「xpath」要素は、評価見出しの下の最初の段落を取り込みます。一部のページには、評価の見出しの下に複数の段落があり、「xpath」変数を変更して具体的に指定すると取得できます (p[4] または p[5] など)。残念ながら、このプロセスを何百ページにもわたって反復したいので、毎回 xpath を変更するのは適切ではありません。また、各ページにいくつの段落があるかさえわかりません。
ページの設定に関する不確実性を考慮すると、興味のある見出しの後に < p > をすべて引っ張るのが最良の選択肢だと思います。
rvest または他の R スクレイピング パッケージを使用して、< h3 >Assessment< h3 > の後にすべての < p > をスクレイピングする方法があるかどうか疑問に思っていました。
html - rvest を使用してテーブルの子孫を返す
次のコードが で指定された情報を返さない理由がわかりませんxpath
。
ページの「主な質問」セクションにあるカウント データを選択しようとしています。最初の質問のテーブルで機能させたいと思ってから、ページ上の各質問/テーブルに対して同じことを行うように拡張するつもりでした。残念ながら、興味のあるテーブルのセクションをプルダウンすることができます。答えには、興味のある < tr > ノードの子、つまり複数の < td > タグを指定することが含まれると思いますが、これを実行しようとしています失敗し続ける。私が興味を持っているテーブルの部分を指定するのを手伝ってくれる人はいますか? (ページ上の 10 個のテーブルすべてで実行できればボーナス ポイント!)
祖先テーブルに移動すると、情報が引き出されますが、非常に面倒で解釈が困難です。このテーブル内の要素を指定しようとすると、情報を抽出できません。の子孫table[1]
が抽出されない理由を説明できる人はいますか? プルダウンするコードは次のtable[1]
とおりです。
r - selectorgadget で強調表示された列の代わりに "Character(0)" を返す Rvest 出力
rvest を使用して、Gates Foundation Awarded Grants Table からいくつかの列をスクレイピングしようとしています。以下は私のコードです:
「table1」コマンドから受け取る出力は次のとおりです。
キャラクター(0)
使用している CSS セレクターに問題はありますか? このタイプのテーブルは rvest と互換性がありませんか?