18

たとえば、このウィキペディアのダンプを使用します。

http://en.wikipedia.org/w/api.php?action=query&prop=revisions&titles=lebron%20james&rvprop=content&redirects=true&format=xmlfm

サブジェクトと値のマッピングを使用して配列を作成するために使用できる Python 用の既存のライブラリはありますか?

例えば:

{height_ft,6},{nationality, American}
4

9 に答える 9

13

MediaWiki マークアップを解析できるようにしたいようです。この目的のために設計されたmwlibという python ライブラリがあります。Python の組み込み XML パッケージを使用して、API の応答からページ コンテンツを抽出し、そのコンテンツを mwlib のパーサーに渡して、コードで参照および分析できるオブジェクト表現を生成し、必要な情報を抽出できます。mwlib は BSD ライセンスです。

于 2010-08-12T01:26:44.517 に答える
6

提供すると主張するPyPiのライブラリ、 wikidump に偶然出くわしました

ウィキペディアのダンプからデータを操作および抽出するツール

私はまだ使っていないので、自分で試してみてください...

于 2010-08-12T16:32:52.617 に答える
3

質問が古いことは知っていますが、ウィキペディアの xml ダンプを解析するライブラリを探していました。ただし、推奨されるライブラリである wikidump と mwlib は、多くのコード ドキュメントを提供していません。次に、いくつかのコード ドキュメントが http://pythonhosted.org/mediawiki-utilities/にあるMediwiki-utilitiesを見つけました。

于 2015-03-12T20:25:36.097 に答える
0

ここにPythonとXMLライブラリに関する情報があります。

Wiki(pedia)XMLを具体的に解析し、要件に一致するように設計された既存のライブラリがあるかどうかを尋ねている場合、これは疑わしいです。ただし、既存のライブラリの1つを使用して、DOMをトラバースし、必要なデータを引き出すことができます。

もう1つのオプションは、同様のXSLTスタイルシートを作成し、lxmlを使用して呼び出すことです。これにより、XSLT内からPython関数を呼び出すこともできるため、両方の長所を活用できます。

于 2010-08-11T23:19:26.563 に答える
-2

あなたはおそらくウィキペディア API を操作するためのPywikipediabotを探しているでしょう。

于 2010-09-11T17:44:51.543 に答える
-6

Beautiful Soupを使用して、API を使用する代わりに HTML でウィキペディアのページを取得することを検討してください。

例を投稿してみます。

于 2010-08-11T23:23:10.800 に答える