scala - ウィキペディアからリストページのデータを抽出するにはどうすればよいですか？

Question

正確にやりたいことは次のとおりです。

入力：ウィキペディアのxmlダンプ

出力：次のようなトリプルのリスト：

<http://dbpedia.org/resource/Lists_of_computer_languages> <http://dbpedia.org/ontology/wikiListOf> <http://dbpedia.org/resource/C_(programming_language)> .

<http://dbpedia.org/resource/Lists_of_computer_languages> <http://dbpedia.org/ontology/wikiListOf> <http://dbpedia.org/resource/Java_(programming_language)> .

...

..

.

<http://dbpedia.org/resource/List_of_XML_markup_languages> <http://dbpedia.org/ontology/wikiListOf> <http://dbpedia.org/resource/AdsML> .

<http://dbpedia.org/resource/List_of_XML_markup_languages> <http://dbpedia.org/ontology/wikiListOf> <http://dbpedia.org/resource/Agricultural_Ontology_Service> .

すでにdbpedia抽出フレームワークを設定してカスタマイズしていますが、このデータを抽出するためのフレームワークを構成するのは難しいと思います。抽出フレームワークにはこのためのエクストラクタがないという事実にショックを受けました！

score 3 · Accepted Answer

すべてのフレームワークエクストラクタは、記事名または記事本文で特定のパターンを探します。他のどの記事にも存在しないリストページの何かを特定できる場合は、それを作成することができます...

それ以外の場合は、ページリンク (ページからページへのリンク) を使用して、必要な記事をフィルター処理できます。これはおそらくあなたが望むものをあなたに与えるでしょう（一種の）

scala - ウィキペディアからリストページのデータを抽出するにはどうすればよいですか？

1 に答える 1

Related

Reference