python - MediaWiki の API ウィキテキストから Python でテンプレート引数を抽出する

Question

MediaWikia の API からテキストの一部を抽出する方法はありますか? たとえば、次のリンクはすべてのコンテンツを XML 形式にダンプします。

http://marvel.wikia.com/api.php?action=query&prop=revisions&titles=All-New%20X-Men%20Vol%201%201&rvprop=content&format=xml

しかし、json 形式であっても、あまり構造はありません。

Writer1_1、などのテキストを取得したいのですが、Penciler1_1おそらくパラメーターを正しく作成していないため、出力できる他のオプションがあるかもしれません。

ユーザーが読みやすい方法でコンテンツを表示できますこちら.

score 1 · Accepted Answer

正規表現と最終分割の方が効率的だと思いますが、これであなたの求めたとおりに仕事をこなすことができます。

import urllib2
import re
data = urllib2.urlopen('http://marvel.wikia.com/api.php?action=query&prop=revisions&titles=All-New%20X-Men%20Vol%201%201&rvprop=content')
regex = re.compile('(Writer1_1|Penciler1_1)')
for line in data.read().split('|'):
    if regex.search(line):
        #assume everything after = is the full name
        print ' '.join(line.split()[2:])

python - MediaWiki の API ウィキテキストから Python でテンプレート引数を抽出する

1 に答える 1

Related

Reference