4

そのような情報を含む HTML ページを解析したいと思います。

<html xmlns="http://www.w3.org/1999/xhtml">
    <head>
        <meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
<title>Tajemnica Oscara Pistoriusa - Książki - WP.PL</title>
<meta name="description" content="Wieczorem, 13 lutego 2013 roku ona pisze dla niego kartkę na walentynki: &lt;b&gt;&quot;Dziś jest dobry dzień, by powiedzieć, że Cię kocham&quot;.&lt;/b&gt; Zanim on odczyta tę wiadomość, ona od kilku godzin nie..." />
<meta name="keywords" content="ksiazki, książka, literatura, czytelnik" />
<meta name="language" content="pl" />
<meta name="author" content="Grupa Wirtualna Polska" />
<meta name="robots" content="index,follow" />

そして、私はR でrvest パッケージを使用しています。このようなコードを使用するときは、このセレクターを使用します。"meta"

library(rvest)

content <- html("http://ksiazki.wp.pl/gid,17325376,tytul,Tajemnica-Oscara-Pistoriusa,galeria.html?ticaid=1147a0&_ticrsn=3")

nodesS <- html_nodes(content, "meta")

すべてのメタのリストを受け取りましたが、特定の 1 つだけに関心があります。contentここからこれらの情報のみをダウンロードするには、どのセレクターを使用すればよいですか。

<meta name="keywords" content="ksiazki, książka, literatura, czytelnik" />

編集encoding:引数を適切に設定する方法を知っている人はいますか? 次のように指定しているときに、不適切なエンコーディングを受け取りました。

> content <- html("http://ksiazki.wp.pl/gid,17325376,tytul,Tajemnica-Oscara-Pistoriusa,galeria.html?ticaid=1147a0&_ticrsn=3", 
+                 encoding = "UTF-8" )
> 
> nodesS <- html_nodes(content, "meta[name=keywords]")
> html_attrs(nodesS)[[1]][2]
                                    content 
"ksiazki, ksiÄ…ĹĽka, literatura, czytelnik" 

編集:

関数を見つけguess_encoding()、ハドリーの github プロジェクトhttps://github.com/hadley/rvestrepair_encoding()のこの readme.me の概要で

4

1 に答える 1

5

CSS セレクターを変更して、属性値セレクターを含めます。

nodesS <- html_nodes(content, "meta[name=keywords]")

content次に、次を追加して、属性のみを抽出できます。

html_nodes(content, "meta[name=keywords]") %>% html_attr("content")
# [1] "ksiazki, książka, literatura, czytelnik"
于 2015-03-09T16:33:38.827 に答える