0

wikidata json ダンプからすべての地理的エントリ (Q56061) を読み込んでいます。Wikidata:Statistics ページによると、ダンプ全体には約 16M のエントリが含まれています。

python3.4 + ijson + libyajl2 を使用すると、ファイルを解析するだけで約 93 時間の CPU (AMD Phenom II X4 945 3GHz) の時間がかかります。合計 230 万件の関心のあるエントリに対してオンラインの順次アイテム クエリを使用すると、約 134 時間かかります。

このタスクを実行するためのより最適な方法はありますか? (たぶん、openstreetmap pdf 形式と浸透ツールのようなもの)

4

1 に答える 1

0

読み込みコードと見積もりが間違っていました。

使用ijson.backends.yajl2_cffiすると、完全な解析 + フィルタリング + データベースへの保存に約 15 時間かかります。

于 2017-01-12T15:28:37.310 に答える