apache-spark - spark と elasticsearch-hadoop を使用して、さまざまな ElasticSearch クラスターから読み書きするにはどうすればよいですか?

Question

元のタイトル: HDFS 以外に、Spark がサポートしている (推奨されている) DFS は何ですか?

いくつかの巨大なクラスターで、spark と elasticsearch (elasticsearch-hadoop ドライバーを使用) を喜んで使用しています。

時々、データのクラスター全体を取り出し、各ドキュメントを処理し、それらすべてを別の Elasticsearch (ES) クラスターに入れたいと思います (そう、データ移行も)。

現在、クラスターから RDD に ES データを読み取り、RDD からのスワッピングを伴うため、spark + elasticsearch-hadoop を使用して RDD を別のSparkContextRDD に書き込む方法はありません。SparkContextそのため、RDD をオブジェクトファイルに書き込み、後でそれらを異なるs のRDD に読み戻したいと考えています。

ただし、ここで問題が発生します。spark クラスター全体で大きなファイルを共有するには、DFS (分散ファイルシステム) が必要です。最も一般的なソリューションは HDFS ですが、スタックに Hadoop を導入することは避けたいと思っています。Spark がサポートする他の推奨 DFS はありますか?

以下を更新

以下の @Daniel Darabos の回答のおかげで、次の Scala コードを使用して、さまざまな ElasticSearch クラスターとの間でデータを読み書きできるようになりました。

val conf = new SparkConf().setAppName("Spark Migrating ES Data")
conf.set("es.nodes", "from.escluster.com")

val sc = new SparkContext(conf)

val allDataRDD = sc.esRDD("some/lovelydata")

val cfg = Map("es.nodes" -> "to.escluster.com")
allDataRDD.saveToEsWithMeta("clone/lovelydata", cfg)

score 3 · Accepted Answer

Spark はファイルアクセスに hadoop-common ライブラリを使用するため、Hadoop がサポートするファイルシステムはすべて Spark で動作します。HDFS、S3、およびGCSで使用しました。

を使用しない理由がよくわかりませんelasticsearch-hadoop。2 つの ES クラスターがあるため、異なる構成でそれらにアクセスする必要があります。sc.newAPIHadoopFileそして引数をrdd.saveAsHadoopFile取りhadoop.conf.Configurationます。したがって、問題なく 2 つの ES クラスターを同じ .xml で使用できますSparkContext。

apache-spark - spark と elasticsearch-hadoop を使用して、さまざまな ElasticSearch クラスターから読み書きするにはどうすればよいですか?

1 に答える 1

Related

Reference