xml - データ形式の認識方法 - R でのスクレイピング

Question

R を使用して、オランダのオープンデータソースからデータを取得しようとしています。ソースはこちら。

これをブラウザー (少なくとも Chrome) で開くと、xml コードとして表示されます。そこで、RCurl パッケージを使用してそれを解析し、XPath を使用して探している特定のノードを抽出できると考えました。

しかし、それを解析しようとすると、問題が発生します。そのままの xml ではないようですが、json が含まれています。

データソースから情報を簡単に抽出するにはどうすればよいですか? 完全な解決策を探しているのではなく、正しい方向へのガイダンスだけを探しています。

私が試してみると：

url <- "http://www.kiesbeter.nl/open-data/api/care/careproviders/?apikey=18a2b2b0-d232-4f48-8d10-5fc10ff04b17"
html <- getURL(url)
doc <- htmlParse(html,asText = TRUE)

その場合、ドキュメントはまだ JSON 形式になっているようです。使えないようですgetNodeSet(doc, "//careproviders")。しかし、最初に fromJSON を使用すると、ぎこちないリスト形式で取得されます。

したがって、問題は、このデータセットから情報を簡単に取得できるように、このデータをどのように処理できるかです (たとえば、すべての医療提供者)。また、データの形式をどのように認識できますか?

xml - データ形式の認識方法 - R でのスクレイピング

2 に答える 2

Related

Reference