python - ウィキペディアのダンプを解析する

Question

たとえば、このウィキペディアのダンプを使用します。

http://en.wikipedia.org/w/api.php?action=query&prop=revisions&titles=lebron%20james&rvprop=content&redirects=true&format=xmlfm

サブジェクトと値のマッピングを使用して配列を作成するために使用できる Python 用の既存のライブラリはありますか?

例えば：

{height_ft,6},{nationality, American}

score 13 · Accepted Answer

MediaWiki マークアップを解析できるようにしたいようです。この目的のために設計されたmwlibという python ライブラリがあります。Python の組み込み XML パッケージを使用して、API の応答からページコンテンツを抽出し、そのコンテンツを mwlib のパーサーに渡して、コードで参照および分析できるオブジェクト表現を生成し、必要な情報を抽出できます。mwlib は BSD ライセンスです。

score 6 · Accepted Answer

提供すると主張するPyPiのライブラリ、 wikidump に偶然出くわしました

ウィキペディアのダンプからデータを操作および抽出するツール

私はまだ使っていないので、自分で試してみてください...

score 3 · Accepted Answer

質問が古いことは知っていますが、ウィキペディアの xml ダンプを解析するライブラリを探していました。ただし、推奨されるライブラリである wikidump と mwlib は、多くのコードドキュメントを提供していません。次に、いくつかのコードドキュメントが http://pythonhosted.org/mediawiki-utilities/にある Mediwiki-utilitiesを見つけました。

score 0 · Accepted Answer

ここにPythonとXMLライブラリに関する情報があります。

Wiki（pedia）XMLを具体的に解析し、要件に一致するように設計された既存のライブラリがあるかどうかを尋ねている場合、これは疑わしいです。ただし、既存のライブラリの1つを使用して、DOMをトラバースし、必要なデータを引き出すことができます。

もう1つのオプションは、同様のXSLTスタイルシートを作成し、lxmlを使用して呼び出すことです。これにより、XSLT内からPython関数を呼び出すこともできるため、両方の長所を活用できます。

score -2 · Accepted Answer

あなたはおそらくウィキペディア API を操作するためのPywikipediabotを探しているでしょう。

score -6 · Accepted Answer

Beautiful Soupを使用して、API を使用する代わりに HTML でウィキペディアのページを取得することを検討してください。

例を投稿してみます。

python - ウィキペディアのダンプを解析する

9 に答える 9

Related

Reference