1

Apache NiFi からのツイートを Elasticsearch に POST としてインデックス付けしようとしており、次のことを行いたいと考えています。

  1. フィールドcreate_atを日付にします。これにはマッピングまたはインデックス テンプレートを使用する必要がありますか?

  2. 一部のフィールドを分析しないようにします。ハッシュタグやURLなど。

  3. ツイート全体ではなく、いくつかの重要なフィールドを保存したい。テキストと同様に、すべてのユーザー情報ではなく、一部のフィールド、ハッシュタグ、エンティティからの URL (投稿 URL 内)。引用元はいらない。この場合、何を使用すればよいですか?テンプレート?必要なデータを抽出して ES にインデックスを付けるために、ETL プロセスでツイートを前処理しますか?

私は少し混乱しています。アドバイスをいただければ幸いです。

前もって感謝します。

4

1 に答える 1

1

あなたの NiFi には、GetTwitter や PostHTTP のようなものが設定されていると思います。NiFi はすでにある種の ETL であるため、おそらく別の ETL は必要ありません。ただし、Twitter から出てくる JSOn 全体をインデックス化したいわけではないので、必要なものを選択し、生の JSON を別のより軽量なものに変換するために、間に別の NiFi プロセスが明らかに必要です。これは Solr での実行方法の例ですが、Elasticsearch 用に同じプロセッサが存在するかどうかはわかりません。

Logstash を使用して Twitter データを Elasticsearch にストリーミングする方法に関するこの記事create_atでは、独自のテンプレートを作成するために使用できるインデックス テンプレートを示しています (つまり、必要に応じてデータ フィールドを追加します)。

すべてにインデックスを付けたくないので、インデックス テンプレートで使用できる独自のマッピングを作成することをお勧めします。インデックス テンプレートを使用すると、日ごと、週ごと、月ごとの twitter インデックスを自由に作成できます。

于 2015-12-06T04:53:31.700 に答える