問題タブ [elasticsearch-hadoop]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
73 参照

hadoop - ResouceManager が Accepted 状態で動かなくなった

ここに画像の説明を入力es 2.2.0 バージョンを Hadoop HDFS と統合しようとしています。私の環境では、1 つのマスター ノードと 1 つのデータ ノードがあります。マスター ノードに Es がインストールされています。しかし、HDFS と統合している間、リソース マネージャー アプリケーションのジョブが Accepted 状態でスタックします。どういうわけか、yarn-site.xml 設定を変更するためのリンクを見つけました:

私もこれを行いましたが、期待される出力が得られません。

構成:-

私のcore-site.xml

私のmapred-site.xml、

私のhdfs-site.xml、

RM ジョブを実行中の状態に変更する方法を教えてください。そうすれば、HDFS で Elasticsearch データを使用できます。

0 投票する
1 に答える
3576 参照

elasticsearch - Spark の複数の Elasticsearch ノードに es.nodes パラメータを設定するにはどうすればよいですか?

そこで、複数の Elasticsearch ノードから Spark にデータを読み取りたいと考えています。「es.nodes」パラメーターを使用して、「es.nodes.discovery」を false に設定することを好みます。設定パラメータについては、こちらで説明しています。「es.nodes」を値の配列に設定する方法の例を見つけようとしましたが、できませんでした。助けてください。

0 投票する
1 に答える
58 参照

elasticsearch - Elasticsearch-hadoop は、異なる ES クラスターに基づいて 2 つの RDD を作成する方法

2 つの異なる ES クラスターから 2 つの Rdd を結合する必要がありますが、1 つの ES クラスターに基づいて 1 つの SparkConf と SparkContext を作成するだけでよいことがわかりました。たとえば、次のようなコード:

では、異なる ES クラスターから 2 つの RDD を作成するにはどうすればよいでしょうか?

0 投票する
1 に答える
120 参照

hadoop - Elasticsearch Hadoop を使用して複数のインデックスを検索する方法

次のシナリオを想定してください: 次のインデックス index-1、index-2、index-4 があります。はい、何らかの理由で「index-3」が見つかりませんでした。検索時にそれを知らなかったので、 「index-1、index-2、index-3、index-4」のようなインデックス パターンを検索します。http リクエストで、「ignore_unavailable」オプションを設定して、不足しているインデックスを無視できます。

しかし、「org.elasticsearch.hadoop.mr.EsInputFormat」を使用して同じ効果を得るにはどうすればよいですか? [es.resource.read] を "index-1,index-2,index-3,index-4" に設定すると、ジョブは index not found 例外で失敗します。"es.index.read.missing.as.empty" を true に設定すると、インデックス パターンのインデックスの一部が存在する場合でも、結果は空になります。

0 投票する
1 に答える
147 参照

scala - Elasticsearch Hadoop を使用して用語ベクトルを取得する方法

ElasticSearch-Hadoop API を使用しています。そして_mtermvector、次のSparkコードを使用して取得しようとしていました:

うまくいきませんでした。アイデアをお願いします。

0 投票する
1 に答える
1720 参照

java - Spark (Java) から Elasticsearch へ

csv から spark にデータをロードして Elasticsearch に保存することをテストしていますが、spark を使用して Elasticsearch に RDD コレクションを保存する際に問題が発生しています。ジョブを送信すると、次のエラーが発生します。

しかし、Mavenでコンパイルしたので、依存関係は正しいはずです...

私の pom.xml はここにあります: http://pastebin.com/b71KL903

この行に到達すると、エラーが発生します。

私のコードの残りはここにあります:http://pastebin.com/8yuJB68A

この問題については既に検索しましたが、何も見つかりませんでした: https://discuss.elastic.co/t/problem-between-spark-and-elasticsearch/51942

https://github.com/elastic/elasticsearch-hadoop/issues/713 .

https://github.com/elastic/elasticsearch-hadoop/issues/585 .

「ClassNotFoundException」が表示されるのは、例外が発生した場合、Spark がそのジョブ クラスローダーをすぐにシャットダウンし、ロードする必要がある他のクラスが失敗して初期エラーが非表示になるためです。

しかし、私は進む方法がわかりません。詳細モードでジョブを送信しましたが、他に何も表示されませんでした: http://pastebin.com/j6zmyjFr

さらに助けてくれてありがとう:)

0 投票する
1 に答える
248 参照

apache-spark - Spark Web UI の「SerDeUtil.scala:201 で取得」の解釈

Pythonでelasticsearch-hadoopコネクタを使用してElasticsearchからデータをロードすることにより、Spark RDDを作成しています(pysparkのインポート):

ここで、ファイルにこれら 2 つのコマンドのみを含めて実行すると、Spark Web UI for Application Details で次のように表示されます。take at SerDeUtil.scala:201

2 つの質問があります。

1) 私は、Spark では RDD が遅延して計算されるという印象を受けました。つまり、アクションが適用されない場合、ジョブは起動されません。上記のシナリオでは、アクションを適用していませんが、ジョブが Web UI で実行されているように見えます。

2) これがジョブである場合、この"take"操作は実際には何を意味しますか? これは、データが実際に ElasticSearch ノードからロードされ、Spark ノードに渡されるということですか? 一部のジョブは収集、カウントなどとしてリストされていると理解しています。これらは Spark で有効なアクションだからです。takeしかし、広範な調査を行った後でも、この操作のセマンティクスを理解できませんでした。