問題タブ [elasticsearch-hadoop]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
scala - 空の文字列が Apache Spark ジョブからエラスティック検索に書き込まれているときのエラーを修正する方法は?
の機能を使用して Scala アプリを実行すると、例外がスローされますmyRDD.saveToEs
(データフレームから saveToEs も試しました)。私のESバージョンは2.3.5
. 私はSparkを使用して1.5.0
いるので、私が知らないでこれを構成する方法があるかもしれませんSparkContext
.
スタック トレースは次のとおりです。
指定されたフィールドにfoo_eff_dt
は値があり、場合によっては値がありません (つまり、空)。これが例外を引き起こしているかどうかはわかりません。
私のscalaコードスニペットは次のようになります:
これを解決するために私を助けてください/ガイドしてください。
ティア。
java - Apache Spark: カスタム基準/あいまい一致を使用した RDD (データ セット) の結合
いくつかの「カスタム基準」/あいまい一致、たとえば数値または日付の範囲/間隔、および文字列のレーベンシュタインなどのさまざまな「距離方法」を使用して、(複数のフィールドで) 2 つ(Pair)RDD
の s (またはDataset
s/ s)を結合することは可能ですか?DataFrame
内で「グループ化」してRDD
を取得するPairRDD
には、 を実装できますが、2 つの s/data セットPairFunction
を結合する場合、同様のことはできないようです。RDD
私は次のようなことを考えています:
hashCode()
カスタム ロジックをandに実装することを考えていましたequals()
が、「類似の」データを同じバケットにまとめる方法がわかりません。私も調べてRDD.cogroup()
いますが、これを使用してこれを実装する方法がわかりません。
私はちょうどelasticsearch-hadoopに出くわしました。そのライブラリを使用してこのようなことを行うことができるかどうかは誰にもわかりませんか?
Apache Spark 2.0.0 を使用しています。私は Java で実装していますが、Scala での回答も非常に役立ちます。
PS。これは私の最初の Stackoverflow の質問なので、初心者の間違いを犯した場合はご容赦ください:)。
hadoop - Kubernetes に Apache Spark 用の Elasticsearch をデプロイする
Elasticsearch for Hadoop ライブラリを使用して Kubernetes クラスターを構成した経験のある人がいるかどうか疑問に思っています。spark から elasticsearch に書き込もうとすると、ノード検出がタイムアウトするという問題が発生しています。検出を処理する ES 用の elasticsearch-cloud-kubernetesプラグインのおかげで、Elasticsearch を稼働させていますが、kubernetes クラスター内のノード (ポッド) を認識するように elasticsearch-hadoop を構成する最善の方法がわかりません。es-client サービスに設定しようとしましspark.es.nodes
たが、うまくいかないようです。を有効にできることも認識していes.nodes.wan.only
ますが、ドキュメントに記載されているように、これは深刻な問題になりますパフォーマンスに影響を与え、同じクラスターで実行するという目的を無効にします。どんな助けでも大歓迎です。
scala - Spark で Elasticsearch-hadoop を使用して、ある Elasticsearch クラスターから別の Elasticsearch クラスターにデータを再インデックス化する方法
2 つの個別の Elasticsearch クラスターがあり、最初のクラスターから 2 番目のクラスターにデータのインデックスを再作成したいのですが、次のように、SparkContext 構成内に 1 つの Elasticsearch クラスターしかセットアップできないことがわかりました。
では、同じアプリケーション内の Spark で Elastic search-hadoop を使用して 2 つの Elasticsearch クラスター間でデータを移動するにはどうすればよいでしょうか?
apache-spark - Spark 2.0 dataframe.map へのアップグレード
一部の Spark 1.6 コードを 2.0.1 に更新していますが、マップを使用していくつかの問題が発生しています。
Encoder-error-while-trying-to-map-dataframe-row-to-updated-row のような SO の質問に関する他の質問を見ましたが、これらの手法を機能させることができず、以下のこのシナリオではばかげているようです。
elasticsearch - Elasticsearch hadoop configure bulk batch size
es-hadoop / es-spark プロジェクトが一括インデックス作成を使用している可能性がある Stackoverflow を読みました。その場合、デフォルトのバッチサイズは BulkProcessor(5Mb) のとおりです。これを変更する構成はありますか。
コードでを使用JavaEsSparkSQL.saveToEs(dataset,index)
していますが、パフォーマンスを調整するために使用できる構成を知りたいです。これはデータセットの分割にも関連していますか。