xml 形式のウィキペディアの記事があり、プロジェクトの記事の単語だけを抽出する必要があります。私は XML 解析の経験がありません。すべての単語を抽出するツールやライブラリはありますか?
2 に答える
1
Python が好きなら、Beautiful Soupは素晴らしい選択肢です。
Python が苦手な方は、Python に慣れてください。
于 2013-11-02T22:21:56.547 に答える
1
Nokogiriは、必要なことを実行できる強力な Ruby ライブラリです。
XML および HTML ドキュメントをトラバースし、xpath または CSS3 セレクターを使用して、記事のテキストなどの特定の要素を選択できます。
于 2013-11-02T22:25:11.803 に答える