web-crawler - Jena ライブラリを使用した Java のリンクされたデータの Web クローラー

翻译自：https://stackoverflow.com/questions/12570936 2012-09-24T18:42:23.917

1172 次

1

Web 上の Linked Data にアクセスする Web Cralwer を実装する必要があります。そのための簡単な機能を構築しました。そのために 3 つのクエリがあります。

使用すべきシード URI は何ですか。RDF 形式でデータを提供し、Tim Berners Lee Linked Data の原則に従っている Web サイト??
一般的に、Web-Cralwers のラウンドベースのアプローチとはどういう意味ですか? 一般的な Web クローラーについて読んだところ、ラウンドベースのアプローチに従う必要があることがわかりました。
RDF/XML データを返すことができる Web ページのみを解析できます。Linked Data をクロールするのに十分ですか。

1 に答える 1

5

いくつかのオプションがあります。たとえば、Billion Triples Challenge ダンプで見つかったすべての URIを開始点として使用するか、Data Hub の lodcloud グループにリストされているすべてのリソースを使用します ( CKAN APIを介して取得できます)。
すみません、わかりません。
いいえ、RDF/XML は十分ではありません。リンクされたデータとして公開されている多くのデータセットが他の形式を使用しているためです。TurtleとRDFaも必要です。上記のすべてを理解するApache Any23を使用できます。LDSpiderは、Any23 を使用するクローラーです。

于 2012-09-24T22:25:08.097 に答える