Apache NiFi からのツイートを Elasticsearch に POST としてインデックス付けしようとしており、次のことを行いたいと考えています。
フィールド
create_at
を日付にします。これにはマッピングまたはインデックス テンプレートを使用する必要がありますか?一部のフィールドを分析しないようにします。ハッシュタグやURLなど。
ツイート全体ではなく、いくつかの重要なフィールドを保存したい。テキストと同様に、すべてのユーザー情報ではなく、一部のフィールド、ハッシュタグ、エンティティからの URL (投稿 URL 内)。引用元はいらない。この場合、何を使用すればよいですか?テンプレート?必要なデータを抽出して ES にインデックスを付けるために、ETL プロセスでツイートを前処理しますか?
私は少し混乱しています。アドバイスをいただければ幸いです。
前もって感謝します。