正確にやりたいことは次のとおりです。
入力:ウィキペディアのxmlダンプ
出力:次のようなトリプルのリスト:
<http://dbpedia.org/resource/Lists_of_computer_languages> <http://dbpedia.org/ontology/wikiListOf> <http://dbpedia.org/resource/C_(programming_language)> .
<http://dbpedia.org/resource/Lists_of_computer_languages> <http://dbpedia.org/ontology/wikiListOf> <http://dbpedia.org/resource/Java_(programming_language)> .
...
..
.
<http://dbpedia.org/resource/List_of_XML_markup_languages> <http://dbpedia.org/ontology/wikiListOf> <http://dbpedia.org/resource/AdsML> .
<http://dbpedia.org/resource/List_of_XML_markup_languages> <http://dbpedia.org/ontology/wikiListOf> <http://dbpedia.org/resource/Agricultural_Ontology_Service> .
すでにdbpedia抽出フレームワークを設定してカスタマイズしていますが、このデータを抽出するためのフレームワークを構成するのは難しいと思います。抽出フレームワークにはこのためのエクストラクタがないという事実にショックを受けました!