python - 大きなNTriplesファイルPythonの解析

Question

PythonでParselargeRDFのコードを使用してかなり大きなNTriplesファイルを解析しようとしています

raptorとPython用のredland-bindingsをインストールしました。

import RDF
parser=RDF.Parser(name="ntriples") #as name for parser you can use ntriples, turtle, rdfxml, ...
model=RDF.Model()
stream=parser.parse_into_model(model,"file:./mybigfile.nt")
for triple in model:
    print triple.subject, triple.predicate, triple.object

ただし、プログラムがハングし、すぐに起動しないため、ファイル全体をメモリなどにロードしようとしているのではないかと思います。

誰かがこれを解決する方法を知っていますか？

score 2 · Accepted Answer

索引付けされていないインメモリー・ストア (RDF.Model() のデフォルト) を読み取っているため、低速です。だからどんどん遅くなっていく。N-Triples の解析はファイルからストリーミングされますが、すべてがメモリに吸い込まれることはありません。

ストレージモデルの概要については、 Redland ストレージモジュールのドキュメントを参照してください。ここでは、おそらくストレージtypeの「ハッシュ」とhash-typeメモリが必要です。

s = RDF.HashStorage("abc", options="hash-type='memory'")
model = RDF.Model(s)

（未検証）

python - 大きなNTriplesファイルPythonの解析

1 に答える 1

Related

Reference