datastax - Dse グラフローダー重複エッジ

Question

次の csv ファイルがあります。

1 つは人物に関するもので、もう 1 つは住所に関するもので、もう 1 つは個人アドレス接続に関するものです (各ファイルに 1 行とヘッダー)。最初の実行時のテスト目的で、次のものがあります。

config create_schema: true、load_new: true、load_threads: 3

インポートは頂点とエッジで成功します。(2 つの頂点とその間の 1 つのエッジ)

同じスクリプト（同じデータ、同じ入力スクリプト）を異なる設定で実行すると

config create_schema: false、load_new: false、load_threads: 3

ノードは変更されていないようですが、ノードのエッジが重複しています。(同じノード間の 2 つの頂点と 2 つのエッジ)

これは私が実行するコードです:

inputfiledir = 'data/'
personInput = File.csv(inputfiledir + 'sna_person_test.csv').delimiter(',')
addressInput = File.csv(inputfiledir + 'sna_address_test.csv').delimiter(',')
personAddressInput = File.csv(inputfiledir + 'san_person_address_test.csv').delimiter(',')

load(personInput).asVertices {
    label "person"
    key "id"
}

load(addressInput).asVertices {
    label "address"
    key "id"
}

load(personAddressInput).asEdges {
    label "has_address"
    outV "person_id", {
        label "person"
        key "id"
    }
    inV "address_id", {
        label "address"
        key "id"
    }
}

これを回避する方法はありますか？

ありがとう

score 1 · Accepted Answer

これは、エッジが Id を持たないためであり、グラフローダーは、エッジが実際に重複しているかどうかを判断する方法がありません。これにより、後続のロードでエッジが複製されますが、頂点は複製されません。

datastax - Dse グラフ ローダー重複エッジ

1 に答える 1

Related

Reference

datastax - Dse グラフローダー重複エッジ