3

これは「大きな」質問で、どうやって始めればいいのかわからないので、どなたか教えていただければ幸いです。これが「良い」質問でない場合は、お詫びしてスレッドを閉じます。

ウィキペディアのデータベース (英語のデータベースとしましょう) を調べて、統計を取りたいと思っています。たとえば、ウィキペディアの各時点 (過去 2 年間としましょう) にアクティブな編集者 (定義する必要があります) が何人いるかに興味があります。

そのようなデータベースを構築する方法、アクセスする方法、データの種類を知る方法などはわかりません。だから私の質問は:

  1. これにはどのようなツールが必要ですか (基本的な R 以外に) ? 私のコンピュータのMySQL? RODBC データベース接続?
  2. そのようなプロジェクトの計画をどのように開始しますか?
4

3 に答える 3

8

ここから始めてください: http://en.wikipedia.org/wiki/Wikipedia:Database_download

ここに移動します: http://download.wikimedia.org/enwiki/20100312/

そして、おそらく必要なファイルは次のとおりです。

# 2010-03-17 04:33:50 done Log events to all pages.
    * This contains the log of actions performed on pages.
    * pages-logging.xml.gz 1.0 GB

http://download.wikimedia.org/enwiki/20100312/enwiki-20100312-pages-logging.xml.gz

次に、xml を MySQL にインポートします。日、週、年などごとのユーザーのヒストグラムを生成する場合、R は必要ありません。単一の MySQL クエリでそれを行うことができます。何かのようなもの:

select DAYOFYEAR(wiki_edit_timestamp), count(*)
from page_logs
group by DAYOFYEAR(wiki_edit_timestamp)
order by DAYOFYEAR(wiki_edit_timestamp);

(実際のスキーマが何であるかはわかりませんが、そのようなものになるでしょう。)

問題が発生することは間違いありませんが、多くのことも学べます。幸運を!

于 2010-04-10T23:36:17.763 に答える
5

あなたは出来る

于 2010-04-11T12:06:31.640 に答える
2

WikiXRay(Python / R)とzoteroを試してください。

于 2010-05-17T09:44:25.303 に答える