elasticsearch - インデックス時に異なるソースからのデータをマージする

翻译自：https://stackoverflow.com/questions/40043449 2016-10-14T12:42:18.327

368 次

fscrawler ( https://github.com/dadoonet/fscrawler )を使用して、互いに関連するデータに対して 2 つのファイルクローラージョブを別々に実行しています。ここで、インデックス作成時に何らかの方法でデータをマージしたい (親子関係またはフラットドキュメントは問題ありません) ため、いくつかのミドルウェアが必要です。Logstash と ES 5.0 の新しい Ingest Node 機能の両方を見ると、カスタムプロセッサの作成をサポートしているようには見えません。

インデックス時にこの種のマージ/リレーショナルマッピングを行う可能性はありますか? または、代わりに後処理を行う必要がありますか?

編集: 1 つのジョブは、json 形式の「記事」をクロールします。記事には、別の場所に複数の添付ファイル (json の添付ファイル配列で宣言) を含めることができます。2 番目のジョブは、実際の添付ファイル (pdf など) をクロールし、TIKA 処理を適用します。最後に、添付ファイルのコンテンツも含む 1 つの記事タイプが必要です。

elasticsearch - インデックス時に異なるソースからのデータをマージする

1 に答える 1

Related

Reference