1

ウィキペディアの人気記事の履歴にあるすべてのページのコンテンツをダウンロードする方法が欲しいのですが。言い換えれば、私は単一の記事のすべての編集の完全な内容を取得したいと思います。どうすればこれを行うことができますか?

ウィキペディアAPIを使用してこれを行う簡単な方法はありますか?簡単な解決策として飛び出したものは何も見つかりませんでした。PyWikipediaボットページ(http://botwiki.sno.cc/w/index.php?title=Template:Script&oldid=3813)のスクリプトも調べましたが、役立つものは見つかりませんでした。PythonまたはJavaでそれを行うためのいくつかの簡単な方法が最善ですが、私はデータを取得する簡単な解決策を受け入れています。

4

2 に答える 2

2

これには複数のオプションがあります。Special:Export特殊ページを使用して、ページ履歴のXMLストリームをフェッチできます。または、 / w/api.phpの下にあるAPIを使用することもできます。などを使用action=query&title=$TITLE&prop=revisions&rvprop=timestamp|user|contentして履歴を取得します。Pywikipediaはこれへのインターフェースを提供しますが、私はそれをどのように呼び出すかを心から知りません。Pythonの代替ライブラリであるmwclientも、これを介して提供します。site.pages[page_title].revisions()

于 2010-07-26T10:33:57.543 に答える
0

1つの解決策は、ウィキペディアのXMLダンプを解析することです。

私はそれをそこに出すと思った。

1ページしか表示されない場合、それはやり過ぎです。ただし、最新の情報が必要ない場合は、XMLを使用すると、ネットワークに何度もアクセスするのではなく、1回限りのダウンロードで済むという利点があります。

于 2010-07-26T00:53:16.593 に答える