ウィキペディアから人々に関するすべての記事を入手する最も簡単な方法は何でしょうか?すべてのページのダンプをダウンロードできることは知っていますが、それらをフィルタリングして、人に関するものだけを取得するにはどうすればよいですか?取得できる限り多く(できれば100万以上)が必要なので、あらゆる種類のAPIを使用することはおそらく選択肢ではありません。
3820 次
3 に答える
10
人に関する記事には通常Persondataテンプレートが含まれているため、Persondataを含むすべての記事を検索するだけで済みます。これを行うためのサンプルAPIクエリは次の場所にあります。
于 2010-11-07T23:21:44.060 に答える
7
2014年現在、別のオプションがあります。プロパティ(P31)の値が(Q5)であるすべてのエンティティのウィキデータをクエリします。instance of
human
人間の完全なリスト:https ://www.wikidata.org/wiki/Special:WhatLinksHere / Q5
sex or gender
そのリストから、 (P21)がないものをすべて除外して、「科学者」のようなページを削除します</ p>
このように、ウィキペディアのすべての異なる言語版( 285あり)の人々にどのテンプレートが使用されているかを追跡する必要はありません。
于 2014-04-13T11:11:07.133 に答える
4
自分でロールアウトする場合、基本的に必要なのは、XMLダンプの「インフォボックスデータ」に焦点を当てることです。
参照:http ://code.google.com/p/infobox2rdf/
または、 http://www.freebase.comまたはhttp://dbpedia.orgをチェックアウトすることもできます
于 2010-10-26T16:11:03.940 に答える