1

Web 上の Linked Data にアクセスする Web Cralwer を実装する必要があります。そのための簡単な機能を構築しました。そのために 3 つのクエリがあります。

  1. 使用すべきシード URI は何ですか。RDF 形式でデータを提供し、Tim Berners Lee Linked Data の原則に従っている Web サイト??
  2. 一般的に、Web-Cralwers のラウンド ベースのアプローチとはどういう意味ですか? 一般的な Web クローラーについて読んだところ、ラウンド ベースのアプローチに従う必要があることがわかりました。
  3. RDF/XML データを返すことができる Web ページのみを解析できます。Linked Data をクロールするのに十分ですか。
4

1 に答える 1

5
  1. いくつかのオプションがあります。たとえば、Billion Triples Challenge ダンプで見つかったすべての URIを開始点として使用するか、Data Hub の lodcloud グループにリストされているすべてのリソースを使用します ( CKAN APIを介して取得できます)。
  2. すみません、わかりません。
  3. いいえ、RDF/XML は十分ではありません。リンクされたデータとして公開されている多くのデータセットが他の形式を使用しているためです。TurtleRDFaも必要です。上記のすべてを理解するApache Any23を使用できます。LDSpiderは、Any23 を使用するクローラーです。
于 2012-09-24T22:25:08.097 に答える