orientdb - OrientDB: ブループリント Java API からのインポートを高速化するには?

Question

Blueprint Java API を使用すると、OrientDB でのデータ取り込みが非常に遅くなります。plocal具体的には、モードとクラスを使用して、いくつかの CSV ファイルから ~ 1M ノードと 3M エッジをロードしていますOrientGraphNoTx(残念ながら、ETL は既存のノード間のエッジを含むファイルを読み取ることができないため、使用できませんでした)。コードは Scala で記述されており、約 1 時間半実行されます。

データベースのスキーマには、5 つの頂点クラス、7 つのエッジクラス、および 6 つのインデックスが含まれています。エッジを作成するために使用する属性は、unique_hash_indexes を使用してインデックス付けされます。既存のノード間にエッジを作成するのが最も時間のかかる操作でした (おそらく多くのエッジがあるため)。以下は私が使用したコードです。誰かがそれを最適化する方法を知っていますか?

/**
 * Adds edges to the graph.
 * Assumes edgesPath points to a CSV file with format (from, to)
 */
def addEdges(edgesPath: String,
             fromTable: String, fromAttribute: String,
             toTable: String, toAttribute: String,
             edgeType: String, graph: OrientGraphNoTx) {

  logger.info(s"Adding edges from '$edgesPath'...")
  val in = Files.newBufferedReader(Paths.get(edgesPath), Charset.forName("utf-8"))
  val records = CSVFormat.DEFAULT
    .withHeader("from", "to")
    .withSkipHeaderRecord(hasHeader)
    .parse(in)
  var errors = 0
  for (r <- records) {
    val (src, target) = (r.get("from"), r.get("to"))
    if (src != "" && target != "") {
      try {
        graph.command(new OCommandSQL(s"CREATE EDGE $edgeType FROM (" +
          s"SELECT FROM $fromTable WHERE $fromAttribute = '$src') " +
          s"TO (SELECT FROM $toTable WHERE $toAttribute ='$target')")).execute()
      } catch {
        case e: OCommandExecutionException => errors += 1
      }
    } //if
  } //for
  if(errors > 0)
    logger.warn(s"Couldn't create $errors edges due to missing sources/targets or internal errors")
  logger.info("done.")
} //addEdges

score 2 · Accepted Answer

plocal で作業していて、1 つのバッチインポートが必要な場合は、インポーターの WAL を無効にしてみてください。

OGlobalConfiguration.USE_WAL.setValue(false);

orientdb - OrientDB: ブループリント Java API からのインポートを高速化するには?

1 に答える 1

Related

Reference