ウィキデータを使用して研究用のデータを取得しています。
私の目標は、Abdias Praetorius などの名前ごとに、エンティティの ID、生年月日、出生地、性別などを取得することです。
このページは : https://www.wikidata.org/wiki/Q308161 で、簡単そうです。
しかし、wiki-data FetchOnlineDataExample.javaコードを使用して、少し変更したとき。次に、次のような情報を取得します。
{de=["Abdias Praetorius" (de), "Gottschalk Schultze" (de)]}
http://www.wikidata.org/entity/P21 :: http://www.wikidata.org/entity/Q6581097 (item)
http://www.wikidata.org/entity/P19 :: http://www.wikidata.org/entity/Q486985 (item)
http://www.wikidata.org/entity/P20 :: http://www.wikidata.org/entity/Q6837 (item)
http://www.wikidata.org/entity/P27 :: http://www.wikidata.org/entity/Q183 (item)
http://www.wikidata.org/entity/P214 :: "20740552"
http://www.wikidata.org/entity/P227 :: "128621761"
...
これは甘いです。Web ページで文字通り定義されているため、たとえば「死の場所」はページ内の項目です。
http://www.wikidata.org/entity/P20
"Wittenberg" はページ内のアイテムです:
https://www.wikidata.org/wiki/Q6837
私の質問は次のとおりです。「出生地:ヴィッテンベルク」だけを破棄する方法はありますか? Webページ全体をクロールしてdomデータを読み取るだけで実行できる可能性があることはわかっています。より良い方法があるかどうか、私はただ興味があります。