問題タブ [elasticsearch-hadoop]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

104 問題

0 投票する

1 に答える

531 参照

scala - 空の文字列が Apache Spark ジョブからエラスティック検索に書き込まれているときのエラーを修正する方法は?

の機能を使用して Scala アプリを実行すると、例外がスローされますmyRDD.saveToEs(データフレームから saveToEs も試しました)。私のESバージョンは2.3.5. 私はSparkを使用して1.5.0いるので、私が知らないでこれを構成する方法があるかもしれませんSparkContext.

スタックトレースは次のとおりです。

指定されたフィールドにfoo_eff_dtは値があり、場合によっては値がありません (つまり、空)。これが例外を引き起こしているかどうかはわかりません。

私のscalaコードスニペットは次のようになります:

これを解決するために私を助けてください/ガイドしてください。

ティア。

2016-08-23T02:43:34.327

0 投票する

1 に答える

1188 参照

java - Apache Spark: カスタム基準/あいまい一致を使用した RDD (データセット) の結合

いくつかの「カスタム基準」/あいまい一致、たとえば数値または日付の範囲/間隔、および文字列のレーベンシュタインなどのさまざまな「距離方法」を使用して、(複数のフィールドで) 2 つ(Pair)RDDの s (またはDatasets/ s)を結合することは可能ですか?DataFrame

内で「グループ化」してRDDを取得するPairRDDには、を実装できますが、2 つの s/data セットPairFunctionを結合する場合、同様のことはできないようです。RDD私は次のようなことを考えています：

hashCode()カスタムロジックをandに実装することを考えていましたequals()が、「類似の」データを同じバケットにまとめる方法がわかりません。私も調べてRDD.cogroup()いますが、これを使用してこれを実装する方法がわかりません。

私はちょうどelasticsearch-hadoopに出くわしました。そのライブラリを使用してこのようなことを行うことができるかどうかは誰にもわかりませんか?

Apache Spark 2.0.0 を使用しています。私は Java で実装していますが、Scala での回答も非常に役立ちます。

PS。これは私の最初の Stackoverflow の質問なので、初心者の間違いを犯した場合はご容赦ください:)。

java apache-spark levenshtein-distance fuzzy-comparison elasticsearch-hadoop

2016-09-01T12:18:10.513

0 投票する

1 に答える

344 参照

hadoop - Kubernetes に Apache Spark 用の Elasticsearch をデプロイする

Elasticsearch for Hadoop ライブラリを使用して Kubernetes クラスターを構成した経験のある人がいるかどうか疑問に思っています。spark から elasticsearch に書き込もうとすると、ノード検出がタイムアウトするという問題が発生しています。検出を処理する ES 用の elasticsearch-cloud-kubernetesプラグインのおかげで、Elasticsearch を稼働させていますが、kubernetes クラスター内のノード (ポッド) を認識するように elasticsearch-hadoop を構成する最善の方法がわかりません。es-client サービスに設定しようとしましspark.es.nodesたが、うまくいかないようです。を有効にできることも認識していes.nodes.wan.onlyますが、ドキュメントに記載されているように、これは深刻な問題になりますパフォーマンスに影響を与え、同じクラスターで実行するという目的を無効にします。どんな助けでも大歓迎です。

hadoop elasticsearch apache-spark kubernetes elasticsearch-hadoop

2016-10-27T19:35:57.570

0 投票する

1 に答える

346 参照

scala - Spark で Elasticsearch-hadoop を使用して、ある Elasticsearch クラスターから別の Elasticsearch クラスターにデータを再インデックス化する方法

2 つの個別の Elasticsearch クラスターがあり、最初のクラスターから 2 番目のクラスターにデータのインデックスを再作成したいのですが、次のように、SparkContext 構成内に 1 つの Elasticsearch クラスターしかセットアップできないことがわかりました。

では、同じアプリケーション内の Spark で Elastic search-hadoop を使用して 2 つの Elasticsearch クラスター間でデータを移動するにはどうすればよいでしょうか?

scala elasticsearch apache-spark apache-spark-sql elasticsearch-hadoop

2016-10-29T02:36:58.577

0 投票する

1 に答える

189 参照

apache-spark - Spark 2.0 dataframe.map へのアップグレード

一部の Spark 1.6 コードを 2.0.1 に更新していますが、マップを使用していくつかの問題が発生しています。

Encoder-error-while-trying-to-map-dataframe-row-to-updated-row のような SO の質問に関する他の質問を見ましたが、これらの手法を機能させることができず、以下のこのシナリオではばかげているようです。

apache-spark elasticsearch-hadoop

2016-11-04T14:39:36.427

0 投票する

1 に答える

916 参照

elasticsearch - Elasticsearch hadoop configure bulk batch size

es-hadoop / es-spark プロジェクトが一括インデックス作成を使用している可能性がある Stackoverflow を読みました。その場合、デフォルトのバッチサイズは BulkProcessor(5Mb) のとおりです。これを変更する構成はありますか。

コードでを使用JavaEsSparkSQL.saveToEs(dataset,index)していますが、パフォーマンスを調整するために使用できる構成を知りたいです。これはデータセットの分割にも関連していますか。

elasticsearch elasticsearch-hadoop elasticsearch-spark

2016-11-09T03:18:13.973

1 2 3 4 5 6 7 8 9 10

問題タブ [elasticsearch-hadoop]

scala - 空の文字列が Apache Spark ジョブからエラスティック検索に書き込まれているときのエラーを修正する方法は?

java - Apache Spark: カスタム基準/あいまい一致を使用した RDD (データ セット) の結合

hadoop - Kubernetes に Apache Spark 用の Elasticsearch をデプロイする

scala - Spark で Elasticsearch-hadoop を使用して、ある Elasticsearch クラスターから別の Elasticsearch クラスターにデータを再インデックス化する方法

apache-spark - Spark 2.0 dataframe.map へのアップグレード

elasticsearch - Elasticsearch hadoop configure bulk batch size

Reference

java - Apache Spark: カスタム基準/あいまい一致を使用した RDD (データセット) の結合