長い/緯度の点の半径内にあるすべての地理タグ付きウィキペディアエントリをプログラムで一覧表示する方法はありますか?これはグーグルマップAPIで可能だと思いますが、どんな方法にも興味があります。注:私はグーグルマップを表示したくありません。
3 に答える
はい、可能です。難しい部分は次のいずれかです。
(1) ウィキペディアのスクリーン スクレイピング (ターゲット ページの (小さな) リストが既にない限り、悪い考えです)
(2) 大量のウィキペディア データ セットのダウンロードと解析(より良い考え)
ウィキページのジオタグ形式であると思われる緯度/経度座標を取得したら、大円の式を使用して相対距離を計算し、Google の API を完全にバイパスできます。
この話の教訓は?これほど大規模なデータセットを扱う場合、できる限り多くのことをオフラインで行いたいと思うでしょう。
GeoNames Webサービスを使用して、少し似た問題を解決しました。
Webサービスを使用して、都市などを要求できます。超えてはならないipごとの制限があります。
もう少し検索しましたが、何か面白いことがあります。Webサービスはと呼ばれfindNearByWikipedia
ます。それはあなたが探しているものかもしれません...
別のオプションは、DbPediaSPARQLインターフェースを使用することです。たとえば、次のSPARQLクエリは、座標によって制限された境界ボックス内のウィキペディアの記事を取得します。
PythonへのSPARQLエンドポイントインターフェイスなど、広く利用可能なSPARQLライブラリ
テストするには、以下のクエリをこのオンラインクエリエディタに貼り付けてください。
PREFIX geo: <http://www.w3.org/2003/01/geo/wgs84_pos#>
PREFIX onto: <http://dbpedia.org/ontology/>
SELECT * WHERE {
?s a onto:Place .
?s geo:lat ?lat .
?s geo:long ?long .
FILTER ( ?long > 30.3 && ?long < 30.5 && ?lat > 50.4 && ?lat < 50.5)
}
LIMIT 100
次の結果を取得します。
"s","lat","long"
"http://dbpedia.org/resource/Kotsiubynske","50.48972320556641","30.32888793945312"
"http://dbpedia.org/resource/Akademmistechko_%28Kiev_Metro%29","50.46555709838867","30.35499954223633"
"http://dbpedia.org/resource/Zhytomyrska_%28Kiev_Metro%29","50.45583343505859","30.36416625976562"
"http://dbpedia.org/resource/Sviatoshyn_Airfield","50.47833251953125","30.38500022888184"