hadoop - Elasticsearch-Hadoop は、インデックスのないデータを取得します

Question

大量のデータを持つelasticsearchクラスターがあります。Elasticsearch からすべてのデータを Hadoop(Hive) に抽出したいと考えています。Hive外部テーブルを使用してelasticsearchからデータを抽出するためにElasticsearch-Hadoopドライバーを使用しましたが、遅すぎて常にタスクに失敗します。

私の最初の問題は、既存の Elasticsearch クラスターからすべてのデータを取得することです。2 番目の問題は、1 日または 1 時間に 1 回、HDFS の Elasticsearch にストリーミングされるすべてのデータを複製することです。

どうすればこれらを達成できますか?

前もって感謝します。

score 0 · Accepted Answer

Hadoop システムをウェアハウスとして使用して、データを Elasticsearch にプッシュできる場所からデータを格納することができます。また、その逆も可能です。現在分析したいデータのみに Elasticsearch を使用して、elasticsearch から残りのデータを削除してください。したがって、さまざまな側面で分析を行うたびに、hadoop からそのデータを取得して使用します。

hadoop - Elasticsearch-Hadoop は、インデックスのないデータを取得します

1 に答える 1

Related

Reference