R を使用して、オランダのオープン データ ソースからデータを取得しようとしています。ソースはこちら。
これをブラウザー (少なくとも Chrome) で開くと、xml コードとして表示されます。そこで、RCurl パッケージを使用してそれを解析し、XPath を使用して探している特定のノードを抽出できると考えました。
しかし、それを解析しようとすると、問題が発生します。そのままの xml ではないようですが、json が含まれています。
データソースから情報を簡単に抽出するにはどうすればよいですか? 完全な解決策を探しているのではなく、正しい方向へのガイダンスだけを探しています。
私が試してみると:
url <- "http://www.kiesbeter.nl/open-data/api/care/careproviders/?apikey=18a2b2b0-d232-4f48-8d10-5fc10ff04b17"
html <- getURL(url)
doc <- htmlParse(html,asText = TRUE)
その場合、ドキュメントはまだ JSON 形式になっているようです。使えないようですgetNodeSet(doc, "//careproviders")
。しかし、最初に fromJSON を使用すると、ぎこちないリスト形式で取得されます。
したがって、問題は、このデータセットから情報を簡単に取得できるように、このデータをどのように処理できるかです (たとえば、すべての医療提供者)。また、データの形式をどのように認識できますか?