大量のデータを持つelasticsearchクラスターがあります。Elasticsearch からすべてのデータを Hadoop(Hive) に抽出したいと考えています。Hive外部テーブルを使用してelasticsearchからデータを抽出するためにElasticsearch-Hadoopドライバーを使用しましたが、遅すぎて常にタスクに失敗します。
私の最初の問題は、既存の Elasticsearch クラスターからすべてのデータを取得することです。2 番目の問題は、1 日または 1 時間に 1 回、HDFS の Elasticsearch にストリーミングされるすべてのデータを複製することです。
どうすればこれらを達成できますか?
前もって感謝します。