“elasticsearch-hadoop”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

73 参照

hadoop - ResouceManager が Accepted 状態で動かなくなった

es 2.2.0 バージョンを Hadoop HDFS と統合しようとしています。私の環境では、1 つのマスターノードと 1 つのデータノードがあります。マスターノードに Es がインストールされています。しかし、HDFS と統合している間、リソースマネージャーアプリケーションのジョブが Accepted 状態でスタックします。どういうわけか、yarn-site.xml 設定を変更するためのリンクを見つけました:

私もこれを行いましたが、期待される出力が得られません。

構成：-

私のcore-site.xml

私のmapred-site.xml、

私のhdfs-site.xml、

RM ジョブを実行中の状態に変更する方法を教えてください。そうすれば、HDFS で Elasticsearch データを使用できます。

2016-05-17T07:28:04.097

0 投票する

1 に答える

3576 参照

elasticsearch - Spark の複数の Elasticsearch ノードに es.nodes パラメータを設定するにはどうすればよいですか?

そこで、複数の Elasticsearch ノードから Spark にデータを読み取りたいと考えています。「es.nodes」パラメーターを使用して、「es.nodes.discovery」を false に設定することを好みます。設定パラメータについては、こちらで説明しています。「es.nodes」を値の配列に設定する方法の例を見つけようとしましたが、できませんでした。助けてください。

elasticsearch apache-spark elasticsearch-hadoop

2016-05-23T08:34:30.697

0 投票する

1 に答える

58 参照

elasticsearch - Elasticsearch-hadoop は、異なる ES クラスターに基づいて 2 つの RDD を作成する方法

2 つの異なる ES クラスターから 2 つの Rdd を結合する必要がありますが、1 つの ES クラスターに基づいて 1 つの SparkConf と SparkContext を作成するだけでよいことがわかりました。たとえば、次のようなコード:

では、異なる ES クラスターから 2 つの RDD を作成するにはどうすればよいでしょうか?

elasticsearch apache-spark elasticsearch-hadoop

2016-05-24T19:03:04.600

0 投票する

1 に答える

120 参照

hadoop - Elasticsearch Hadoop を使用して複数のインデックスを検索する方法

次のシナリオを想定してください: 次のインデックス index-1、index-2、index-4 があります。はい、何らかの理由で「index-3」が見つかりませんでした。検索時にそれを知らなかったので、「index-1、index-2、index-3、index-4」のようなインデックスパターンを検索します。http リクエストで、「ignore_unavailable」オプションを設定して、不足しているインデックスを無視できます。

しかし、「org.elasticsearch.hadoop.mr.EsInputFormat」を使用して同じ効果を得るにはどうすればよいですか? [es.resource.read] を "index-1,index-2,index-3,index-4" に設定すると、ジョブは index not found 例外で失敗します。"es.index.read.missing.as.empty" を true に設定すると、インデックスパターンのインデックスの一部が存在する場合でも、結果は空になります。

hadoop elasticsearch elasticsearch-hadoop

2016-06-04T10:59:39.190

0 投票する

1 に答える

147 参照

scala - Elasticsearch Hadoop を使用して用語ベクトルを取得する方法

ElasticSearch-Hadoop API を使用しています。そして_mtermvector、次のSparkコードを使用して取得しようとしていました:

うまくいきませんでした。アイデアをお願いします。

scala elasticsearch apache-spark elasticsearch-hadoop

2016-06-29T15:16:23.170

0 投票する

1 に答える

1720 参照

java - Spark (Java) から Elasticsearch へ

csv から spark にデータをロードして Elasticsearch に保存することをテストしていますが、spark を使用して Elasticsearch に RDD コレクションを保存する際に問題が発生しています。ジョブを送信すると、次のエラーが発生します。

しかし、Mavenでコンパイルしたので、依存関係は正しいはずです...

私の pom.xml はここにあります: http://pastebin.com/b71KL903。

この行に到達すると、エラーが発生します。

私のコードの残りはここにあります：http://pastebin.com/8yuJB68A

この問題については既に検索しましたが、何も見つかりませんでした: https://discuss.elastic.co/t/problem-between-spark-and-elasticsearch/51942。

https://github.com/elastic/elasticsearch-hadoop/issues/713 .

https://github.com/elastic/elasticsearch-hadoop/issues/585 .

「ClassNotFoundException」が表示されるのは、例外が発生した場合、Spark がそのジョブクラスローダーをすぐにシャットダウンし、ロードする必要がある他のクラスが失敗して初期エラーが非表示になるためです。

しかし、私は進む方法がわかりません。詳細モードでジョブを送信しましたが、他に何も表示されませんでした: http://pastebin.com/j6zmyjFr

さらに助けてくれてありがとう:)

java maven elasticsearch apache-spark elasticsearch-hadoop

2016-06-30T09:08:15.347

0 投票する

1 に答える

248 参照

apache-spark - Spark Web UI の「SerDeUtil.scala:201 で取得」の解釈

Pythonでelasticsearch-hadoopコネクタを使用してElasticsearchからデータをロードすることにより、Spark RDDを作成しています(pysparkのインポート):

ここで、ファイルにこれら 2 つのコマンドのみを含めて実行すると、Spark Web UI for Application Details で次のように表示されます。take at SerDeUtil.scala:201

2 つの質問があります。

1) 私は、Spark では RDD が遅延して計算されるという印象を受けました。つまり、アクションが適用されない場合、ジョブは起動されません。上記のシナリオでは、アクションを適用していませんが、ジョブが Web UI で実行されているように見えます。

2) これがジョブである場合、この"take"操作は実際には何を意味しますか? これは、データが実際に ElasticSearch ノードからロードされ、Spark ノードに渡されるということですか? 一部のジョブは収集、カウントなどとしてリストされていると理解しています。これらは Spark で有効なアクションだからです。takeしかし、広範な調査を行った後でも、この操作のセマンティクスを理解できませんでした。

apache-spark pyspark elasticsearch-hadoop

2016-07-29T18:10:29.103

問題タブ [elasticsearch-hadoop]

Reference