以下のような N-Triples および Turtle 形式の中規模および大規模なナレッジ グラフの古いバージョンを処理してきました。
それらはすべて、不正な形式のトリプルを含んでいるようです。で処理中のエラーの例serdi -l
:
ウィキデータ 2015
error: wikidata_20150420_parts/wikidata-20150420-all-BETA.ttl.part_0:1021322:54: invalid IRI character `|'
error: wikidata_20150420_parts/wikidata-20150420-all-BETA.ttl.part_0:1021323:0: bad subject
error: wikidata_20150420_parts/wikidata-20150420-all-BETA.ttl.part_0:1021543:0: invalid IRI character (escape %0A)
error: wikidata_20150420_parts/wikidata-20150420-all-BETA.ttl.part_0:3863553:32: invalid IRI character `}'
error: wikidata_20150420_parts/wikidata-20150420-all-BETA.ttl.part_0:3863554:34: expected prefixed name
error: wikidata_20150420_parts/wikidata-20150420-all-BETA.ttl.part_0:3863555:20: bad verb
error: wikidata_20150420_parts/wikidata-20150420-all-BETA.ttl.part_0:3863556:67: expected digit
...
フリーベース 2012
error: freebase_20120817_kb_files/freebase-rdf-2012-08-17-21-54:67541:51: missing ';' or '.'
error: freebase_20120817_kb_files/freebase-rdf-2012-08-17-21-54:67543:57: missing ';' or '.'
error: freebase_20120817_kb_files/freebase-rdf-2012-08-17-21-54:67570:52: missing ';' or '.'
error: freebase_20120817_kb_files/freebase-rdf-2012-08-17-21-54:67571:51: missing ';' or '.'
...
LinkedBrainz 2017
error: linkedbrainz_201712_kb_files/place.nt:551:6: expected `]', not `/'
error: linkedbrainz_201712_kb_files/place.nt:551:6: bad verb
error: linkedbrainz_201712_kb_files/place.nt:551:6: bad subject
error: linkedbrainz_201712_kb_files/place.nt:553:277: line end in short string
error: linkedbrainz_201712_kb_files/place.nt:554:6: expected: ':', '<', or '_'
...
より多くの例があります。主な質問が 2 つあります。
- これらのファイルがそのようなエラーで生成された理由および/または方法についての説明はありますか? これらのファイルは、トリプル ストアまたは Apache Jena などのエンジンをダンプすることによって生成されたものであり、適切な形式であると予想されます。代わりに、ある種のカスタム スクリプト (または Unix ツールのパイプラインか?) を使用してそれらがまとめられた可能性が高いように思われるため、エラーが発生します...
- これらのファイルを修正する方法はありますか? (または、最悪のシナリオでは、. 以外の不正な行を無視し
serdi -l
ます。クリーニング スクリプトを最初から実装する必要がないソリューションの追加ポイント)。