Rを使用してWebサイト(www.majidata.co.ke)からデータをスクレイピングしようとしています(かなり失敗しました).必要!
ライブラリを使用して、次のXML
コードを使用してデータをスクレイピングします。
majidata_get <- GET("http://www.majidata.go.ke/town.php?MID=MTE=&SMID=MTM=")
majidata_html <- htmlTreeParse(content(majidata_get, as="text"))
これにより、(Large) XMLDocumentContent が残ります。Web ページにはドロップダウン リストがあり、そこから値を取得したいと考えています (これは、さまざまな町の名前と ID 番号に関連しています)。抽出したいビットは、数字<option value ="XXX">
とそれに続く大文字の名前です。
<div class="regiondata">
<div id="town_data">
<select id="town" name="town" onchange="town_data(this.value);">
<option value="0" selected="selected">[SELECT TOWN]</option>
<option value="611">AHERO</option>
<option value="635">AKALA</option>
<option value="625">AWASI</option>
<option value="628">AWENDO</option>
<option value="749">BAHATI</option>
<option value="327">BANGALE</option>
理想的には、これらを data.frame に入れたいと思います。最初の列は番号で、2 番目の列は名前です。
ID Name
611 AHERO
635 AKALA
625 AWASI
等
ここからどこへ行けばいいのかよくわかりません。正規表現を使用してテキスト内のパターンに一致させることを考えていましたが、多くのフォーラムから、これは悪い考えであり、xpath を使用する方が優れている/より効率的であると読みました。xpathApply
どういうわけか使用する必要があると考える以外は、これをどこから始めればよいかよくわかりません。