6

特定のカテゴリに属する​​すべてのウィキペディアの記事を収集し、ウィキペディアからダンプを取り出して、データベースに入れるプロジェクトがあります。

したがって、ウィキペディアのダンプ ファイルを解析して作業を完了する必要があります。この仕事を行うための効率的なパーサーはありますか? 私は Python 開発者です。だから私はPythonのパーサーを好みます。提案がない場合は、Python でポートを作成して Web に投稿しようとします。他の人がそれを利用するか、少なくとも試してみてください。

だから私が欲しいのは、ウィキペディアのダンプファイルを解析するための Python パーサーだけです。各ノードを解析して処理を完了する手動パーサーの作成を開始しました。

4

4 に答える 4

3

http://jjinux.blogspot.com/2009/01/python-parsing-wikipedia-dumps-using.htmlに同じサンプルコードがあります

于 2009-03-19T10:00:28.710 に答える
1

ライセンスについてはわかりませんが、これは python で実装されており、ソースが含まれています。

于 2009-03-19T10:00:45.323 に答える