0

xml 形式のウィキペディアの記事があり、プロジェクトの記事の単語だけを抽出する必要があります。私は XML 解析の経験がありません。すべての単語を抽出するツールやライブラリはありますか?

4

2 に答える 2

1

Python が好きなら、Beautiful Soupは素晴らしい選択肢です。

Python が苦手な方は、Python に慣れてください。

于 2013-11-02T22:21:56.547 に答える
1

Nokogiriは、必要なことを実行できる強力な Ruby ライブラリです。

XML および HTML ドキュメントをトラバースし、xpath または CSS3 セレクターを使用して、記事のテキストなどの特定の要素を選択できます。

于 2013-11-02T22:25:11.803 に答える