問題タブ [graphite-carbon]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
time-series - 大規模な時系列データセットをグラファイトに効率的にロードする
次の形式の CSV ファイルから 1000 億の多次元時系列データポイントを Graphite に読み込もうとしています。
タイムスタンプ value_1 value_2 .... value_n
公式ドキュメントで高速読み込み方法を見つけようとしましたが、現在挿入を行っている方法は次のとおりです(私のコードベースはPythonにあります):
上記のコードが示すように、私のコードはデータセットの CSV ファイルを読み取り、5000 個のデータ ポイントのバッチを準備してから、sock.sendall
.
ただし、この方法はあまり効率的ではありません。実際、1,000 億のデータ ポイントをロードしようとしていますが、これには予想よりも時間がかかります。それぞれ 1500 列の 500 万行のみをロードするのに 40 時間かかり、まだ 15 時間かかります。
データセットをグラファイトにロードするためのより良い方法があるとほぼ確信しています。