特定のカテゴリに属するすべてのウィキペディアの記事を収集し、ウィキペディアからダンプを取り出して、データベースに入れるプロジェクトがあります。
したがって、ウィキペディアのダンプ ファイルを解析して作業を完了する必要があります。この仕事を行うための効率的なパーサーはありますか? 私は Python 開発者です。だから私はPythonのパーサーを好みます。提案がない場合は、Python でポートを作成して Web に投稿しようとします。他の人がそれを利用するか、少なくとも試してみてください。
だから私が欲しいのは、ウィキペディアのダンプファイルを解析するための Python パーサーだけです。各ノードを解析して処理を完了する手動パーサーの作成を開始しました。