問題タブ [elasticsearch-hadoop]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
scala - Spark から Elastic Search に地理データを挿入する
ES に緯度と経度のフィールドを含む RDD をアップロードしようとしています。geo_point タイプを使用して地図上にプロットしたいと思います。「12.25、-5.2」などの文字列または緯度/経度の 2 つの double の配列を含む各ドキュメントの「場所」フィールドを作成しようとしましたが、ES はそれらを geo_point として検出しません。データを挿入する前にインデックスが存在しません。
場所が geo_point であることを ES に伝えるにはどうすればよいですか?
保存するelasticsearch-hadoop libを含む現在のコード:
myRDDを使用して、「場所」を含む RDD[Map] -> [double, double]
someConfには"es.index.auto.create" -> "true"が含まれています
hadoop - hdfs からの Elasticsearch でのデータの取り込み、クラスターのセットアップと使用
スパーククラスターをセットアップしています。同じインスタンスに hdfs データ ノードとスパーク マスター ノードがあります。
現在のセットアップは 1 マスター (spark と hdfs) 6 スパーク ワーカーと hdfs データ ノードです。
すべてのインスタンスは同じで、16 ギガのデュアル コアです (残念ながら)。
もう 3 台のマシンがありますが、これも同じ仕様です。ここで、3 つのオプションがあります。1. これら 3 台のマシンに es を展開するだけです。クラスターは、1 つのマスター (spark と hdfs)、6 つの Spark ワーカー、hdfs データ ノード、3 つの Elasticsearch ノードのようになります。
- es master を 1 に展開し、spark と hdfs を拡張し、その他すべてに es を展開します。クラスターは 1 マスター (spark と hdfs) 1 マスター エラスティックサーチ 8 スパーク ワーカー、hdfs データ ノード、es データ ノードのようになります
私のアプリケーションは、結合、ml などに spark を多用していますが、検索機能を探しています。リアルタイムで検索する必要はなく、最大 30 分の更新間隔でも問題ありません。
同時に、spark クラスターには、es インデックス作成以外の長時間実行されるタスクがあります。
解決策は上記のいずれかである必要はありません。誰かが提案した場合、私は実験にオープンです。他の開発者にとっても、一度結論を下すと便利です。
また、私は es hadoop、es-spark プロジェクトを試していますが、3 つの専用ノードを実行すると、1 分あたり 60 万レコードのように取り込みが非常に遅いと感じました。
scala - Elasticsearch-spark からメトリクスを取得する
ETL カスケード ジョブの最後に、Elasticsearch -hadoopがHadoop カウンターを使用して公開するHadoop メトリックを使用して、Elasticsearch の取り込みに関するメトリックを抽出しています。
Spark を使用して同じことを行いたいのですが、Spark コネクタを使用したメトリックに関連するドキュメントが見つかりません。
常にではありませんが、通常は EMR (Hadoop) でジョブを実行するため、Spark コネクタは Cascading コネクタと同じ方法で Hadoop を使用している可能性があります。とにかくCascadingのような「MapReduceコネクタ型」だけだと思うので、そんなことはないと思います。
だから私の質問は:
- Elasticsearch Spark コネクタからメトリックを抽出する方法は?
- コネクタが Hadoop カウンターを使用している場合、Hadoop Yarn で実行しているときに Spark から Hadoop カウンターにアクセスする方法を教えてください。
バージョン:
- スカラ 2.11.8
- スパーク 2.1
- ハドゥープ 2.7.2
- エラスティックサーチ-スパーク-20_2.11 5.2.2
apache-spark - sparkでelasticsearchのいくつかの列を読む方法は?
es クラスターには大規模なデータがあり、spark を使用してデータを計算しましたが、途中でhttps://www.elastic.co/guide/en/elasticsearch/hadoop/current/spark.htmlelasticsearch-hadoop
が続きます
インデックスの列全体を読み取る必要があります。役立つものはありますか?