こんにちは、テキストを分析し、python を使用して人の人生の出来事のタイムラインを作成できる、シンプルなウィキペディアのスクラップ ツールを作成しようとしています。私はそれを行うための可能な方法をネットで検索しており、今まで BeautifulSoup と urllib2 を使用してデータを取得することができました。これまでのコードは次のようになります。
from bs4 import BeautifulSoup
import urllib2
import re
import nltk
import json
#get source code of page (function used later)
def fetchsource(url):
source = urllib2.urlopen(url).read()
return source
if __name__=='__main__':
#url = "http://en.wikipedia.org/w/index.php?action=raw&title=Tom_Cruise" #works
url="http://en.wikipedia.org/w/api.php?action=query&prop=revisions&rvprop=content&format=xml&&titles=Tom_Cruise" #works
print url
source = fetchsource(url)
soup = BeautifulSoup(source)
print soup.prettify()
これで作業できますが、得られる出力を解析するのが少し難しいので、データを取得できるより良い方法や、より管理しやすい構文があるかどうかを尋ねたかっただけです。コメントよろしくお願いします。