wikidata json ダンプからすべての地理的エントリ (Q56061) を読み込んでいます。Wikidata:Statistics ページによると、ダンプ全体には約 16M のエントリが含まれています。
python3.4 + ijson + libyajl2 を使用すると、ファイルを解析するだけで約 93 時間の CPU (AMD Phenom II X4 945 3GHz) の時間がかかります。合計 230 万件の関心のあるエントリに対してオンラインの順次アイテム クエリを使用すると、約 134 時間かかります。
このタスクを実行するためのより最適な方法はありますか? (たぶん、openstreetmap pdf 形式と浸透ツールのようなもの)