html - ウィキペディアの記事の抽出と解析

Question

xml 形式のウィキペディアの記事があり、プロジェクトの記事の単語だけを抽出する必要があります。私は XML 解析の経験がありません。すべての単語を抽出するツールやライブラリはありますか?

score 1 · Accepted Answer

Python が好きなら、Beautiful Soupは素晴らしい選択肢です。

Python が苦手な方は、Python に慣れてください。

score 1 · Accepted Answer

Nokogiriは、必要なことを実行できる強力な Ruby ライブラリです。

XML および HTML ドキュメントをトラバースし、xpath または CSS3 セレクターを使用して、記事のテキストなどの特定の要素を選択できます。

2 に答える 2