たとえば、このウィキペディアのダンプを使用します。
サブジェクトと値のマッピングを使用して配列を作成するために使用できる Python 用の既存のライブラリはありますか?
例えば:
{height_ft,6},{nationality, American}
たとえば、このウィキペディアのダンプを使用します。
サブジェクトと値のマッピングを使用して配列を作成するために使用できる Python 用の既存のライブラリはありますか?
例えば:
{height_ft,6},{nationality, American}
MediaWiki マークアップを解析できるようにしたいようです。この目的のために設計されたmwlibという python ライブラリがあります。Python の組み込み XML パッケージを使用して、API の応答からページ コンテンツを抽出し、そのコンテンツを mwlib のパーサーに渡して、コードで参照および分析できるオブジェクト表現を生成し、必要な情報を抽出できます。mwlib は BSD ライセンスです。
質問が古いことは知っていますが、ウィキペディアの xml ダンプを解析するライブラリを探していました。ただし、推奨されるライブラリである wikidump と mwlib は、多くのコード ドキュメントを提供していません。次に、いくつかのコード ドキュメントが http://pythonhosted.org/mediawiki-utilities/にあるMediwiki-utilitiesを見つけました。
ここにPythonとXMLライブラリに関する情報があります。
Wiki(pedia)XMLを具体的に解析し、要件に一致するように設計された既存のライブラリがあるかどうかを尋ねている場合、これは疑わしいです。ただし、既存のライブラリの1つを使用して、DOMをトラバースし、必要なデータを引き出すことができます。
もう1つのオプションは、同様のXSLTスタイルシートを作成し、lxmlを使用して呼び出すことです。これにより、XSLT内からPython関数を呼び出すこともできるため、両方の長所を活用できます。
あなたはおそらくウィキペディア API を操作するためのPywikipediabotを探しているでしょう。
Beautiful Soupを使用して、API を使用する代わりに HTML でウィキペディアのページを取得することを検討してください。
例を投稿してみます。