問題タブ [orientdb-etl]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
orientdb - 2 ノードの OrientDB クラスターで表示されるノード 1 のデータのみ
以下の手順に従って、2 ノードの OrientDB クラスターを作成しました。ただし、配布中は、ノードの 1 つにのみ存在するデータにアクセスできます。この問題のデバッグを手伝ってください。OrientDB のバージョンは 2.2.6 です
必要な手順:
ETL ツールで plocal モードを利用し、データの一部をノード 1 に保存し、残りの部分をノード 2 に保存しました。格納されたデータは、実際には頂点の 1 つのクラスのみに属します。(コンソールからのデータを確認すると、データは正しく注入されています)。
次に、両方のノードを分散モードで実行すると、1 台のマシンからのデータのみにアクセスできます。
default-distributed-db-config.json ファイルは以下に指定されています。
address という名前の頂点に対して、address と address_1 という 2 つのクラスターが作成されます。マシン orientslave1 のデータは、ETL ツールを使用してクラスター address_1 に格納されます。同様に、マシン orientmaster のデータはクラスター アドレスに格納されます。(これらのクラスター ID の両方が作成時に異なることを確認しました)
ただし、これら 2 台のマシンが分散モードで接続されている場合、クラスター address_1 のデータのみが表示されます。
ETL json は以下に添付されています。
私が間違っていることがあれば教えてください
orientdb - ETL を使用して CSV データを SPATIAL インデックスを含む OrientDB にロードする
WGS84 Lat/Long の空間座標を含むいくつかの CSV ファイルから OrientDB にいくつかのデータをロードすることに興味があります。
私は OrientDB 2.2.8 を使用しており、lucene空間モジュールを $ORIENTDB_HOME/lib ディレクトリに追加しています。
ETL を使用してデータベースにデータをロードしていて、空間インデックスを追加したいのですが、その方法がわかりません。
CSV ファイルに次の列があるとします。
- ラベル(文字列)
- 緯度 (浮動小数点数)
- 経度 (float)
ETLでこれを試しました:
しかし、それは機能していません。次のエラー メッセージが表示されます。
ETLを介して空間インデックスを作成することを検討した人はいますか? これについて私が目にしているもののほとんどは、Java を使用しているか、ダイレクト クエリを介して行われています。
アドバイスをよろしくお願いします。
orientdb - 分散型 orientDB (エンタープライズ エディション 2.2.9) をシャーディング モードでセットアップする方法
プロジェクトに Orednt DB エンタープライズ 2.2.9 エディションを使用しています。とりあえず2台のサーバークラスタを設定し、分散環境でシャーディングを実装しました。しかし、テレポーターを使用して RDBMS からデータをプルすると、データが配布されません。2 つのサーバーでデータを複製するだけです。分散環境のセットアップを手伝ってくれませんか
私の設定ファイルは次のとおりです:-
default-distributed-db-config.json:- { "replication": true, "clusters": { "internal": { "replication": false }, "index": { "replication": false }, "ODistributedConflict" : { "replication": false }, "*": { "replication": true, "writeQuorum": 2, "partitioning": { "strategy": "round-robin", "default": 0, "partitions" : [ [ "マノジ" ], [ "ヴィシュヌ" ] } } }
hazelcast.xml orientdb orientdb false false false 5 1 1 1 1
orientdb - 同じクラスに ETL で Edge を作成する
1) データベースに用意されている ItemId と Name を持つ Class Items。2) CSV ファイル: 2 列、
...
...など
質問:
ETL json ファイルを定義して、ItemId1 と col#2 のすべての ItemId の間、および ItemId2 とその col#2 ピアの間に Edge を作成する方法。
orientdb - ETL ツールを使用して行単位の JSON を OrientDB にインポートすることは可能ですか?
各行が単一の JSON オブジェクトを表す一連のファイル (それぞれ約 10Gb) があります。ストリーミング モードでインポートしたいのですが、現在サポートされていないようです (OrientDB v.2.2.12)。回避策はありますか? また、この場合の推奨される方法は何ですか?
orientdb - SSD 上の plocal にエッジをインポートする際の ETL パフォーマンスの問題の方向付け
私の目標は、約 50M の頂点を持つグラフに 25M のエッジをインポートすることです。目標時間:
インポートの現在の速度は ~150 エッジ/秒です。リモート接続の速度は約 100 エッジ/秒でした。
- 抽出された 20,694,336 行 (171 行/秒) - 20,694,336 行 -> ロードされた 20,691,830 頂点 (171 頂点/秒) 合計時間: 35989762ms [警告 0、エラー 4]
- 抽出された 20,694,558 行 (156 行/秒) - 20,694,558 行 -> ロードされた 20,692,053 頂点 (156 頂点/秒) 合計時間: 35991185ms [警告 0、エラー 4]
- 抽出された 20,694,745 行 (147 行/秒) - 20,694,746 行 -> ロードされた 20,692,240 頂点 (147 頂点/秒) 合計時間: 35992453ms [警告 0、エラー 4]
- 抽出された 20,694,973 行 (163 行/秒) - 20,694,973 行 -> ロードされた 20,692,467 頂点 (162 頂点/秒) 合計時間: 35993851ms [警告 0、エラー 4]
- 抽出された 20,695,179 行 (145 行/秒) - 20,695,179 行 -> ロードされた 20,692,673 頂点 (145 頂点/秒) 合計時間: 35995262ms [警告 0、エラー 4]
etl config で並列を有効にしようとしましたが、Orient 2.2.12 で完全に壊れているように見え (2.1 のマルチスレッド変更との矛盾?)、上記のログに 4 つのエラーしか表示されません。ダム並列モード (2 つ以上の ETL プロセスを実行) も、plocal 接続では不可能です。
私の設定:
データサンプル:
{"_ref":"1072308006473","with_to":"person","with_id":"010703814320","_type":"is.stakeholder","value_of_share":10000.0} {"_ref":"1075837000095", "with_to":"person","with_id":"583600656732","_type":"is.stakeholder","value_of_share":15925.0} {"_ref":"1075837000095","with_to":"person"," with_id":"583600851010","_type":"is.stakeholder","value_of_share":33150.0}
サーバーの仕様は、Google Cloud 上のインスタンス、PD-SSD、6CPU、18GB RAM です。
ところで、同じサーバー上で、リモート接続を使用して頂点をインポートする際に約 3k/秒を得ることができました (それでも遅すぎますが、現在のデータセットでは許容範囲内です)。
そして質問: 1 秒あたり 10,000 回の挿入、または少なくとも 5,000 回のインポート速度を上げるための信頼できる方法はありますか? インデックスをオフにしたくありません。数十億ではなく数百万のレコードです。
アップデート
数時間後、パフォーマンスが低下し続けます。
- 抽出された 23,146,912 行 (56 行/秒) - 23,146,912 行 -> ロードされた 23,144,406 頂点 (56 頂点/秒) 合計時間: 60886967ms [警告 0、エラー 4]
- 抽出された 23,146,981 行 (69 行/秒) - 23,146,981 行 -> ロードされた 23,144,475 頂点 (69 頂点/秒) 合計時間: 60887967ms [警告 0、エラー 4]
- 抽出された 23,147,075 行 (39 行/秒) - 23,147,075 行 -> ロードされた 23,144,570 頂点 (39 頂点/秒) 合計時間: 60890356ms [警告 0、エラー 4]
orientdb - CSV を使用してビール データベースをインポート中にエラーが発生しました
最新のコミュニティ エディション 2.2.17 を使用しています。csv を使用してビール データベースをインポートしているときに、ビールのインポート中にエラーが発生します。(カテゴリ、スタイルなどはすべて正常にインポートされました)。エラーは次のとおりです。
インポートに使用したコマンドは、ドキュメントに記載されているものと同じです: ./oetl.sh /temp/openbeer/beers.json
(ディレクトリ名がシステムの実際の名前に変更されています)。
誰か提案してください。
これが私のbeers.jsonファイルです:
ありがとう、DBuserN