python - Python を使用してウィキペディアのダンプファイルをパーサー化するためのパーサー/方法はありますか?

Question

特定のカテゴリに属するすべてのウィキペディアの記事を収集し、ウィキペディアからダンプを取り出して、データベースに入れるプロジェクトがあります。

したがって、ウィキペディアのダンプファイルを解析して作業を完了する必要があります。この仕事を行うための効率的なパーサーはありますか? 私は Python 開発者です。だから私はPythonのパーサーを好みます。提案がない場合は、Python でポートを作成して Web に投稿しようとします。他の人がそれを利用するか、少なくとも試してみてください。

だから私が欲しいのは、ウィキペディアのダンプファイルを解析するための Python パーサーだけです。各ノードを解析して処理を完了する手動パーサーの作成を開始しました。

score 3 · Accepted Answer

http://jjinux.blogspot.com/2009/01/python-parsing-wikipedia-dumps-using.htmlに同じサンプルコードがあります

score 1 · Accepted Answer

ライセンスについてはわかりませんが、これは python で実装されており、ソースが含まれています。

python - Python を使用してウィキペディアのダンプ ファイルをパーサー化するためのパーサー/方法はありますか?

4 に答える 4

Related

Reference

python - Python を使用してウィキペディアのダンプファイルをパーサー化するためのパーサー/方法はありますか?