問題タブ [elasticsearch-spark]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

31 問題

0 投票する

1 に答える

916 参照

elasticsearch - Elasticsearch hadoop configure bulk batch size

es-hadoop / es-spark プロジェクトが一括インデックス作成を使用している可能性がある Stackoverflow を読みました。その場合、デフォルトのバッチサイズは BulkProcessor(5Mb) のとおりです。これを変更する構成はありますか。

コードでを使用JavaEsSparkSQL.saveToEs(dataset,index)していますが、パフォーマンスを調整するために使用できる構成を知りたいです。これはデータセットの分割にも関連していますか。

2016-11-09T03:18:13.973

0 投票する

1 に答える

1235 参照

java - 正確なフィールドを取得する Spark を使用して Elasticsearch から読み取る

私は ElasticSearch を初めて使用します。Java で Spark を使用してインデックスからデータを読み取ろうとしています。

作業中のコードがありますが、列がドキュメントの 2 つの「ルート」要素のみであるデータセット内のドキュメントを返しますが、残りのすべてのデータはそれらの列内に JSON 形式で格納されます。

これは私のコードです:

Spark によって推論されるスキーマの非常に単純化されたバージョンは次のとおりです。

show() を使用して Spark から取得できるのは、次のようなものだけです

Spark で処理せずに各行 (bbbb など) 内のデータを取得する方法はありますか? (つまり、これらのデータを ElasticSearch から直接取得する方法はありますか?)

java elasticsearch apache-spark elasticsearch-spark

2016-11-17T12:57:58.933

0 投票する

2 に答える

180 参照

algorithm - elasticsearch haoop でドキュメントをマージし、es-sparksql を使用して複数のキーと値のペアを作成する

現在、elasticsearch hadoop はデータセット/rdd を 1 対 1 のマッピングでドキュメントに変換しています。つまり、データセットの 1 行が 1 つのドキュメントに変換されます。私たちのシナリオでは、このようなことをしています

ユニのために

より良い戦略があれば、提案してください。

以下のコードは機能していませんが、理論的には以下のようなことを達成しようとしています

OOM が発生する可能性があるため、完全なデータセットを 1 つのリストに収集したくないため、パーティションごとにリストを取得し、パーティションキーに対してインデックスを作成することを計画しています。

algorithm hadoop elasticsearch-spark

2016-12-28T09:08:11.487

0 投票する

1 に答える

349 参照

scala - Elasticsearch-spark からメトリクスを取得する

ETL カスケードジョブの最後に、Elasticsearch -hadoopがHadoop カウンターを使用して公開するHadoop メトリックを使用して、Elasticsearch の取り込みに関するメトリックを抽出しています。

Spark を使用して同じことを行いたいのですが、Spark コネクタを使用したメトリックに関連するドキュメントが見つかりません。

常にではありませんが、通常は EMR (Hadoop) でジョブを実行するため、Spark コネクタは Cascading コネクタと同じ方法で Hadoop を使用している可能性があります。とにかくCascadingのような「MapReduceコネクタ型」だけだと思うので、そんなことはないと思います。

だから私の質問は：

Elasticsearch Spark コネクタからメトリックを抽出する方法は?
コネクタが Hadoop カウンターを使用している場合、Hadoop Yarn で実行しているときに Spark から Hadoop カウンターにアクセスする方法を教えてください。

バージョン:

スカラ 2.11.8
スパーク 2.1
ハドゥープ 2.7.2
エラスティックサーチ-スパーク-20_2.11 5.2.2

scala apache-spark elasticsearch elasticsearch-hadoop elasticsearch-spark

2017-04-03T14:00:45.257

1 2 3 4 5 6 7 8 9 10

問題タブ [elasticsearch-spark]

elasticsearch - Elasticsearch hadoop configure bulk batch size

java - 正確なフィールドを取得する Spark を使用して Elasticsearch から読み取る

algorithm - elasticsearch haoop でドキュメントをマージし、es-sparksql を使用して複数のキーと値のペアを作成する

scala - Elasticsearch-spark からメトリクスを取得する

Reference