wikipedia - ウィキペディアから人々に関するすべての記事を入手するにはどうすればよいですか？

Question

ウィキペディアから人々に関するすべての記事を入手する最も簡単な方法は何でしょうか？すべてのページのダンプをダウンロードできることは知っていますが、それらをフィルタリングして、人に関するものだけを取得するにはどうすればよいですか？取得できる限り多く（できれば100万以上）が必要なので、あらゆる種類のAPIを使用することはおそらく選択肢ではありません。

score 10 · Accepted Answer

人に関する記事には通常Persondataテンプレートが含まれているため、Persondataを含むすべての記事を検索するだけで済みます。これを行うためのサンプルAPIクエリは次の場所にあります。

ウィキペディアAPIは特定のテンプレートの検索をサポートしていますか？

score 7 · Accepted Answer

2014年現在、別のオプションがあります。プロパティ（P31）の値が（Q5）であるすべてのエンティティのウィキデータをクエリします。instance ofhuman

人間の完全なリスト：https ：//www.wikidata.org/wiki/Special：WhatLinksHere / Q5

sex or genderそのリストから、（P21）がないものをすべて除外して、「科学者」のようなページを削除します</ p>

このように、ウィキペディアのすべての異なる言語版（ 285あり）の人々にどのテンプレートが使用されているかを追跡する必要はありません。

score 4 · Accepted Answer

自分でロールアウトする場合、基本的に必要なのは、XMLダンプの「インフォボックスデータ」に焦点を当てることです。

参照：http ：//code.google.com/p/infobox2rdf/

または、 http：//www.freebase.comまたはhttp://dbpedia.orgをチェックアウトすることもできます

wikipedia - ウィキペディアから人々に関するすべての記事を入手するにはどうすればよいですか？

3 に答える 3

Related

Reference