wikidata - ウィキデータのダンプを読み込んでいます

Question

wikidata json ダンプからすべての地理的エントリ (Q56061) を読み込んでいます。Wikidata:Statistics ページによると、ダンプ全体には約 16M のエントリが含まれています。

python3.4 + ijson + libyajl2 を使用すると、ファイルを解析するだけで約 93 時間の CPU (AMD Phenom II X4 945 3GHz) の時間がかかります。合計 230 万件の関心のあるエントリに対してオンラインの順次アイテムクエリを使用すると、約 134 時間かかります。

このタスクを実行するためのより最適な方法はありますか? (たぶん、openstreetmap pdf 形式と浸透ツールのようなもの)

score 0 · Accepted Answer

読み込みコードと見積もりが間違っていました。

使用ijson.backends.yajl2_cffiすると、完全な解析 + フィルタリング + データベースへの保存に約 15 時間かかります。

wikidata - ウィキデータのダンプを読み込んでいます

1 に答える 1

Related

Reference