1

私はリンクされたデータ、そしてもちろん DBpedia に取り組み始めたところです。それが私の仕事に役立つことを願っています。

私はデータとテクノロジーに慣れるためにいくつかの SPARQL クエリを作成しようとしていますが、結果に恐怖を感じており、ここでコアコンセプトを理解していないのではないかと考えています。たとえば、DBpedia にすべての国のリストを表示させたい場合、単純に、すべての国が「タイプ」であると想像dbo:countryし、何かが「タイプ」dbo:countryである場合、その何かは確かに国である必要があると考えます。

したがって、すべての国を返す単純な SPARQL クエリは次のようになると思います。

PREFIX dbo: <http://dbpedia.org/ontology/>

SELECT ?concept
WHERE {?concept a dbo:Country}

さて、このクエリは、私が期待する多くのことを返します。既存の国、元の国、他の国の一部である国、そしてもちろん、フィンランドのクリケット代表チーム。

待って、なに?!?!?!

このクエリがクリケットのフィンランド代表チームを返すのはなぜですか? 確かに、それは Country 型のエンティティではありませんよね? 見せて...

http://dbpedia.org/page/Finland_national_cricket_team

おー。ありえます。


これが DBpedia の間違いであるという私の理解は正しいですか? すべてのリンク データが同様に外れ値で汚染されているか? つまり、英国のバスケットボール チーム、インディアナ州の民主党、米国の駐パキスタン大使など、私のクエリが返すものにはもっと奇妙なものがあります。この汚染は当然のことなのですか、それとも私は単にここでの視点を見逃しているのですか?

4

1 に答える 1

2

これが DBpedia の間違いであるという私の理解は正しいですか?

はい、そう思います。よく見ると、クリケットのフィンランド代表チームdbo:countrydbr:Jonathan_October. なぜそうなのかはよくわかりませんが、これが問題の原因だと思います。

すべてのリンク データが同様に外れ値で汚染されているか?

私はそうは思いません。それは常にデータのソースに依存します。しかし、Wikipedia から自動的に抽出されたデータのようなものであれば、常に問題が発生します (ただし、ほとんどの場合、この規模ではないことを願っています)。

于 2015-10-10T01:28:00.643 に答える