基本的に文字列のRDDであるsparkプログラムを書いています。私がする必要があるのは、基本的に文字列ごとにクエリを作成し、エラスティック検索インデックスに基づいてクエリを実行することです。したがって、本質的にクエリは文字列で異なります。最適化できるように、elasticsearch-hadoop を使用して検索を実行したかったのです。RDDは大きくなる可能性があり、可能な最適化を探しています
たとえば、RDD は List[India, IBM Company , Netflix , Lebron James] です。これらすべての用語で More like this 検索を作成し、Index Wikipedia で検索を行い、結果を取得します。たとえば、インド、IBM、Netflix、レブロン ジェームズに対して、このようなクエリをさらに 4 つ作成し、それらのヒットを取得します。
一括検索で HTTP Rest Api 呼び出しを使用してヒットを取り戻すことができる回避策がありますが、自分で最適化を行う予定です。Spark Elastic Connector を使用してクエリを作成し、最適化された方法で検索できるかどうかを確認したかったのです。