0

fscrawler ( https://github.com/dadoonet/fscrawler )を使用して、互いに関連するデータに対して 2 つのファイル クローラー ジョブを別々に実行しています。ここで、インデックス作成時に何らかの方法でデータをマージしたい (親子関係またはフラット ドキュメントは問題ありません) ため、いくつかのミドルウェアが必要です。Logstash と ES 5.0 の新しい Ingest Node 機能の両方を見ると、カスタム プロセッサの作成をサポートしているようには見えません。

インデックス時にこの種のマージ/リレーショナル マッピングを行う可能性はありますか? または、代わりに後処理を行う必要がありますか?

編集: 1 つのジョブは、json 形式の「記事」をクロールします。記事には、別の場所に複数の添付ファイル (json の添付ファイル配列で宣言) を含めることができます。2 番目のジョブは、実際の添付ファイル (pdf など) をクロールし、TIKA 処理を適用します。最後に、添付ファイルのコンテンツも含む 1 つの記事タイプが必要です。

4

1 に答える 1