問題タブ [elasticsearch-hadoop]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - ResouceManager が Accepted 状態で動かなくなった
es 2.2.0 バージョンを Hadoop HDFS と統合しようとしています。私の環境では、1 つのマスター ノードと 1 つのデータ ノードがあります。マスター ノードに Es がインストールされています。しかし、HDFS と統合している間、リソース マネージャー アプリケーションのジョブが Accepted 状態でスタックします。どういうわけか、yarn-site.xml 設定を変更するためのリンクを見つけました:
私もこれを行いましたが、期待される出力が得られません。
構成:-
私のcore-site.xml
私のmapred-site.xml、
私のhdfs-site.xml、
RM ジョブを実行中の状態に変更する方法を教えてください。そうすれば、HDFS で Elasticsearch データを使用できます。
elasticsearch - Spark の複数の Elasticsearch ノードに es.nodes パラメータを設定するにはどうすればよいですか?
そこで、複数の Elasticsearch ノードから Spark にデータを読み取りたいと考えています。「es.nodes」パラメーターを使用して、「es.nodes.discovery」を false に設定することを好みます。設定パラメータについては、こちらで説明しています。「es.nodes」を値の配列に設定する方法の例を見つけようとしましたが、できませんでした。助けてください。
elasticsearch - Elasticsearch-hadoop は、異なる ES クラスターに基づいて 2 つの RDD を作成する方法
2 つの異なる ES クラスターから 2 つの Rdd を結合する必要がありますが、1 つの ES クラスターに基づいて 1 つの SparkConf と SparkContext を作成するだけでよいことがわかりました。たとえば、次のようなコード:
では、異なる ES クラスターから 2 つの RDD を作成するにはどうすればよいでしょうか?
hadoop - Elasticsearch Hadoop を使用して複数のインデックスを検索する方法
次のシナリオを想定してください: 次のインデックス index-1、index-2、index-4 があります。はい、何らかの理由で「index-3」が見つかりませんでした。検索時にそれを知らなかったので、 「index-1、index-2、index-3、index-4」のようなインデックス パターンを検索します。http リクエストで、「ignore_unavailable」オプションを設定して、不足しているインデックスを無視できます。
しかし、「org.elasticsearch.hadoop.mr.EsInputFormat」を使用して同じ効果を得るにはどうすればよいですか? [es.resource.read] を "index-1,index-2,index-3,index-4" に設定すると、ジョブは index not found 例外で失敗します。"es.index.read.missing.as.empty" を true に設定すると、インデックス パターンのインデックスの一部が存在する場合でも、結果は空になります。
scala - Elasticsearch Hadoop を使用して用語ベクトルを取得する方法
ElasticSearch-Hadoop API を使用しています。そして_mtermvector
、次のSparkコードを使用して取得しようとしていました:
うまくいきませんでした。アイデアをお願いします。
java - Spark (Java) から Elasticsearch へ
csv から spark にデータをロードして Elasticsearch に保存することをテストしていますが、spark を使用して Elasticsearch に RDD コレクションを保存する際に問題が発生しています。ジョブを送信すると、次のエラーが発生します。
しかし、Mavenでコンパイルしたので、依存関係は正しいはずです...
私の pom.xml はここにあります: http://pastebin.com/b71KL903。
この行に到達すると、エラーが発生します。
私のコードの残りはここにあります:http://pastebin.com/8yuJB68A
この問題については既に検索しましたが、何も見つかりませんでした: https://discuss.elastic.co/t/problem-between-spark-and-elasticsearch/51942。
https://github.com/elastic/elasticsearch-hadoop/issues/713 .
https://github.com/elastic/elasticsearch-hadoop/issues/585 .
「ClassNotFoundException」が表示されるのは、例外が発生した場合、Spark がそのジョブ クラスローダーをすぐにシャットダウンし、ロードする必要がある他のクラスが失敗して初期エラーが非表示になるためです。
しかし、私は進む方法がわかりません。詳細モードでジョブを送信しましたが、他に何も表示されませんでした: http://pastebin.com/j6zmyjFr
さらに助けてくれてありがとう:)
apache-spark - Spark Web UI の「SerDeUtil.scala:201 で取得」の解釈
Pythonでelasticsearch-hadoopコネクタを使用してElasticsearchからデータをロードすることにより、Spark RDDを作成しています(pysparkのインポート):
ここで、ファイルにこれら 2 つのコマンドのみを含めて実行すると、Spark Web UI for Application Details で次のように表示されます。take at SerDeUtil.scala:201
2 つの質問があります。
1) 私は、Spark では RDD が遅延して計算されるという印象を受けました。つまり、アクションが適用されない場合、ジョブは起動されません。上記のシナリオでは、アクションを適用していませんが、ジョブが Web UI で実行されているように見えます。
2) これがジョブである場合、この"take"
操作は実際には何を意味しますか? これは、データが実際に ElasticSearch ノードからロードされ、Spark ノードに渡されるということですか? 一部のジョブは収集、カウントなどとしてリストされていると理解しています。これらは Spark で有効なアクションだからです。take
しかし、広範な調査を行った後でも、この操作のセマンティクスを理解できませんでした。