0

私はウィキペディア ダンプ パーサーをカスタマイズ可能な xml に検索してきました。基本的に、各記事は、記事のセクション プレーン テキストを含むセクション タグのセットに解析する必要があります。私は次の解決策を考え出します

最初のものの問題は、それが Windows でのみ利用可能であり、2 番目の問題は、ネストされた xml スキームでセクションを生成する機能を提供しないことです。mwlibの以前の実装はそのような機能を提供しているように見えますが、残念ながら新しいバージョンはそうではありません。カスタマイズ可能な xml を生成できる Linux 上のウィキペディア xml ダンプ パーサーはありますか?

4

1 に答える 1

0

これは jsonwikipedia [1] を使用して実行できると思います。Wikipedia XML ダンプから「json ダンプ」を生成します。jsonwikipedia およびその他のツールの詳細については、このブログ投稿 [2] を参照してください。

[1] - https://github.com/idio/json-wikipedia

[2] - http://engineering.idiioplatform.com/2016/02/18/wikipedia-toolkit.html

于 2016-02-25T14:07:19.767 に答える