python - Pythonを使用してNeo4jで一括追加/挿入を実行する最速の方法は？

Question

Python用のpy2neoを介してRESTAPIを使用すると、Neo4jがノードとリレーションシップ/アーク/エッジを追加するのに時間がかかることがわかりました。これは、各RESTAPI呼び出しが単一の自己完結型トランザクションとして実行されるためであると理解しています。

具体的には、ノード間に関係がある数百のノードのペアを追加するには、ローカルホストで実行して数秒かかります。

Pythonを使用しながらパフォーマンスを大幅に向上させるための最良のアプローチは何ですか？

バルブフローとグレムリンを使用することは、一括挿入トランザクションを構築する方法でしょうか？

ありがとう！

score 9 · Accepted Answer

py2neoで一括作成を行うにはいくつかの方法があり、それぞれがサーバーへの呼び出しを 1 回だけ行います。

メソッドを使用してcreate、単一のバッチで多数のノードと関係を構築します。
サイファー CREATE ステートメントを使用します。
新しいWriteBatchクラス (今週リリースされたばかり) を使用して、ノードとリレーションシップのバッチを手動で作成します (これは実際には 1 の手動バージョンです)。

コードをお持ちの場合は、喜んでそれを見て、パフォーマンスの調整に関する提案を行います。インスピレーションを得ることができるかもしれないかなりの数のテストもあります.

乾杯、ニゲ

score 6 · Accepted Answer

バッチ挿入を行っていない限り、Neo4j の書き込みパフォーマンスは遅くなります。

Neo4j バッチインポーター ( https://github.com/jexp/batch-import ) は、データを Neo4j にロードする最速の方法です。これは Java ユーティリティですが、実行可能ファイルを実行しているだけなので、Java の知識は必要ありません。型付きデータとインデックスを処理し、CSV ファイルからインポートします。

Bulbs ( http://bulbflow.com/ ) モデルで使用するには、モデルget_bundle()メソッドを使用して、挿入用に準備されたデータ、インデックス名、およびインデックスキーを取得し、データを CSV ファイルに出力します。または、データをモデル化したくない場合は、データを Python から CSV ファイルに出力するだけです。

それはあなたのために働くでしょうか？

score 2 · Accepted Answer

まあ、私自身、neo4j からの膨大なパフォーマンスが必要でした。グラフのパフォーマンスを向上させるために、次のことを行うことになります。

多くの問題があったため、py2neo を捨てました。また、neo4j が提供する REST エンドポイントを使用すると非常に便利ですが、必ずリクエストセッションを使用してください。
OGM (Object-Graph Mapper) の代わりに、一括挿入に raw cypher クエリを使用します。高性能システムが必要な場合、これは非常に重要です。
パフォーマンスがまだ私のニーズに十分ではなかったため、WITH * AND UNION 句を使用して 6 ～ 10 個のクエリをマージするカスタムシステムの作成を終了しました。これにより、パフォーマンスが 3 ～ 5 倍向上しました。
少なくとも 1000 のクエリで、より大きなトランザクションサイズを使用します。

score 0 · Accepted Answer

大量のノードを非常に高速に Neo4K に挿入するには

バッチインサーター

http://neo4j.com/docs/stable/batchinsert-examples.html

私の場合、私はJavaに取り組んでいます。

python - Pythonを使用してNeo4jで一括追加/挿入を実行する最速の方法は？

5 に答える 5

Related

Reference