2

ElasticSearch は初めてで、180 フィールドと 1200 万行のファイルがあります。ElasticSearch と Java プログラムでインデックスとタイプを作成しましたが、1.5 時間かかります。時間を短縮してElasticSearchにデータをロードする他の最良の方法はありますか? マップ削減プログラムを試してみましたが、失敗して重複したエントリが生成され、シーケンシャル プログラムよりも時間がかかる場合があります。

誰でも良い提案をすることができますか?

4

1 に答える 1

0

ES-hadoop プラグインを使用する場合は、エントリの重複を避けるために投機的実行を無効にすることができます。map-reduce を使用してデータのインデックスを作成する場合は、バルク API のバッチ サイズを微調整してみてください。詳細については、 https ://www.elastic.co/guide/en/elasticsearch/hadoop/current/configuration.html を参照して、最高のパフォーマンスを得るためにデフォルトを変更してみてください。また、ES ヒープ サイズを増やしてみてください。また、ES の apache Tika または mapper attachments プラグインを使用して、ファイルから情報を抽出することもできます。

それが役に立てば幸い!

于 2016-04-06T06:28:36.060 に答える