1

ウィキペディアですべての死者のリストを抽出し、死亡時の年齢を比較したいと考えています。ウィキペディアのすべての死者には、次のフィールドが入力されています。

| birth_name = Thomas Alva Edison
| birth_date = {{birth date|mf=yes|1847|02|11}}
| death_date ={{death date and age|mf=yes|1931|10|18|1847|02|11}}

クローラーを作る必要がありますか?ウィキペディア API で役立つものはありますか? クロールを開始できる場所はありますか? 死者のリストは?

4

2 に答える 2

1

ウィキペディアのすべてのコンテンツのダンプは、ここからダウンロードできます。

http://dumps.wikimedia.org/enwiki/latest/

このファイルは.xmlサイズが数ギガバイトのファイルで、ウィキペディアのすべてのページのテキストが含まれています (とりわけ)。これをどのように処理するかは、使用するプログラミング言語によって異なります。

于 2011-07-24T00:38:27.717 に答える
0

これがDBpediaの目的です - データベース内のウィキペディアからのすべての構造化データ。http://dbpedia.org/sparqlで次のクエリを試してください。

select distinct ?p, ?d where {
  ?p a <http://dbpedia.org/ontology/Person> .
  ?p <http://dbpedia.org/ontology/deathDate> ?d .
}
于 2012-07-09T15:46:21.220 に答える