1

大量のデータを持つelasticsearchクラスターがあります。Elasticsearch からすべてのデータを Hadoop(Hive) に抽出したいと考えています。Hive外部テーブルを使用してelasticsearchからデータを抽出するためにElasticsearch-Hadoopドライバーを使用しましたが、遅すぎて常にタスクに失敗します。

私の最初の問題は、既存の Elasticsearch クラスターからすべてのデータを取得することです。2 番目の問題は、1 日または 1 時間に 1 回、HDFS の Elasticsearch にストリーミングされるすべてのデータを複製することです。

どうすればこれらを達成できますか?

前もって感謝します。

4

1 に答える 1

0

Hadoop システムをウェアハウスとして使用して、データを Elasticsearch にプッシュできる場所からデータを格納することができます。また、その逆も可能です。現在分析したいデータのみに Elasticsearch を使用して、elasticsearch から残りのデータを削除してください。したがって、さまざまな側面で分析を行うたびに、hadoop からそのデータを取得して使用します。

于 2015-04-10T10:01:11.200 に答える