es-hadoop / es-spark プロジェクトが一括インデックス作成を使用している可能性がある Stackoverflow を読みました。その場合、デフォルトのバッチサイズは BulkProcessor(5Mb) のとおりです。これを変更する構成はありますか。
コードでを使用JavaEsSparkSQL.saveToEs(dataset,index)
していますが、パフォーマンスを調整するために使用できる構成を知りたいです。これはデータセットの分割にも関連していますか。
es-hadoop / es-spark プロジェクトが一括インデックス作成を使用している可能性がある Stackoverflow を読みました。その場合、デフォルトのバッチサイズは BulkProcessor(5Mb) のとおりです。これを変更する構成はありますか。
コードでを使用JavaEsSparkSQL.saveToEs(dataset,index)
していますが、パフォーマンスを調整するために使用できる構成を知りたいです。これはデータセットの分割にも関連していますか。
構成ページで設定を見つけました
es.batch.size.bytes (default 1mb)
Elasticsearch バルク API を使用したバッチ書き込みのサイズ (バイト単位)。一括サイズはタスク インスタンスごとに割り当てられることに注意してください。常に Hadoop ジョブ内のタスク数を掛けて、Elasticsearch にヒットする実行時のバルク サイズの合計を取得します。
es.batch.size.entries (default 1000)
Elasticsearch バルク API を使用したバッチ書き込みのサイズ (エントリ単位) - (0 は無効化)。es.batch.size.bytes のコンパニオン。いずれかが一致すると、バッチ更新が実行されます。サイズと同様に、この設定はタスク インスタンスごとです。実行時に、実行中の Hadoop タスクの総数が乗算されます。