java - エントリをElasticSearchに挿入する最良の方法は何ですか?

Question

ElasticSearch は初めてで、180 フィールドと 1200 万行のファイルがあります。ElasticSearch と Java プログラムでインデックスとタイプを作成しましたが、1.5 時間かかります。時間を短縮してElasticSearchにデータをロードする他の最良の方法はありますか? マップ削減プログラムを試してみましたが、失敗して重複したエントリが生成され、シーケンシャルプログラムよりも時間がかかる場合があります。

誰でも良い提案をすることができますか?

score 0 · Accepted Answer

ES-hadoop プラグインを使用する場合は、エントリの重複を避けるために投機的実行を無効にすることができます。map-reduce を使用してデータのインデックスを作成する場合は、バルク API のバッチサイズを微調整してみてください。詳細については、 https ://www.elastic.co/guide/en/elasticsearch/hadoop/current/configuration.html を参照して、最高のパフォーマンスを得るためにデフォルトを変更してみてください。また、ES ヒープサイズを増やしてみてください。また、ES の apache Tika または mapper attachments プラグインを使用して、ファイルから情報を抽出することもできます。

それが役に立てば幸い！

java - エントリをElasticSearchに挿入する最良の方法は何ですか?

1 に答える 1

Related

Reference