json - JSON 入力のパフォーマンスの問題

Question

ケトルを介してmongodbソースからmysqlテーブルをロードしています。Mongodb テーブルには 400 万件を超えるレコードがあり、ケトルジョブを実行すると、最初の読み込みが完了するまでに 17 時間かかります。増分ロードでも 1 時間以上かかります。コミットサイズを増やし、ジョブに割り当てるメモリを増やしてみましたが、パフォーマンスは向上しません。JSON入力ステップはデータを解析するのに非常に長い時間がかかるため、非常に遅いと思います。私は自分の変革にこれらのステップを持っています

Mongodb 入力ステップ
JSON 入力
ストリングスカット
フィールド値が null の場合
連結フィールド
値を選択
テーブル出力。

postgre から抽出したときと同じ 400 万件のレコードは、mongodb よりもはるかに高速でした。パフォーマンスを向上させる方法はありますか? 私を助けてください。

ありがとう、ディープティ

score 0 · Accepted Answer

ステップの複数のコピーを実行します。モンゴ入力があり、次にjson入力ステップがあり、json結果を正しく解析しているように聞こえますか? そのため、json 入力ステップのコピーを 4 つまたは 8 つ (または CPU によってはそれ以上) 使用すると、速度が向上します。

または、本当に完全なjsonを解析する必要がありますか?おそらく、正規表現などを介してデータを抽出できます.

json - JSON 入力のパフォーマンスの問題

1 に答える 1

Related

Reference