問題タブ [elasticsearch-hadoop]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
4961 参照

hadoop - ElasticSearch-Hadoop (es-hadoop) とは何ですか? また、ライブ Web アプリケーションの HBase に対する利点は何ですか?

説明から es-hadoop が何であるかは、私には完全には明らかではありません。

これは、データを ES クラスターから Hadoop 分析用の HDFS に移動する単なる「コネクター」ですか? もしそうなら、低レイテンシのテキスト クエリに HBase を使用しないのはなぜでしょうか?

es-Hadoop は通常の ES とは異なるインストールですか?

いくつかの説明をお願いします。

ありがとう。

0 投票する
1 に答える
224 参照

hadoop - Hive から Elasticsearch への自動挿入

現在、Hadoop テキスト ファイルから Elasticsearch にデータを自動的に追加する方法を見つけようとしています。HIVE v0.11、Hadoop v2.0.5、Elasticsearch 1.7.1、elasticsearch-hadoop v2.1.0 を実行しています。ファイルはパス /tmp/test-log/apache2log の下のさまざまなサブフォルダーに保存され、年/月/日という名前が付けられています。作成は、Hadoop からデータを取得する際に機能します。

しかし、このデータをelasticsearchに挿入するテーブルを作成しようとすると、作成は正常に機能しますが、テーブルは空です。次のコマンドを試しました:

デフォルト設定から変更された変数:

Elasticsearch 用に 2 番目のテーブルを作成し、INSERT を使用してデータを追加する可能性があることはわかっています。ただし、プロセスを自動化する必要があるため、ファイルに追加されたデータは、hadoop に到着したときにテーブルに挿入する必要があります。

0 投票する
2 に答える
1631 参照

elasticsearch - Spark-Cassandra 対 Spark-Elasticsearch

私はかなり前から Elasticsearch を使用しており、Cassandra を使用した経験はほとんどありません。

現在、spark を使用してデータを処理したいプロジェクトがありますが、データをロードするためのデータストアとして Cassandra と Elasticsearch のどちらを使用するかを決定する必要があります。

コネクタに関しては、Cassandra と Elasticsearch の両方にデータをロードするための優れたコネクタが備わっているため、決定要因にはなりません。

決定する勝敗の要因は、Spark 内でデータをどれだけ速くロードできるかです。私のデータはほぼ 20 テラバイトです。

JMeter を使用していくつかのテストを実行し、結果を自分で確認できることは知っていますが、両方のシステムに精通している人に尋ねたいと思います。

ありがとう

0 投票する
1 に答える
9283 参照

elasticsearch - Spark Dataframe を Elasticsearch に保存 - 型の例外を処理できません

MySQL からデータを読み取り、Spark を使用して Elasticsearch に保存する簡単なジョブを設計しました。

コードは次のとおりです。

コードが非常に単純であることがわかります。データを DataFrame に読み取り、いくつかの列を選択してから、Dataframe でcount基本的なアクションとして実行します。この時点まではすべて正常に動作します。

次に、データを Elasticsearch に保存しようとしますが、一部のタイプを処理できないために失敗します。ここでエラー ログを確認できます。

なぜそのタイプを処理できないのかわかりません。なぜこれが起こっているのか誰にも分かりますか?

Apache Spark 1.5.0、Elasticsearch 1.4.4、elaticsearch-hadoop 2.1.1 を使用しています

編集:

  • ソースコードとともにサンプルデータセットで要点リンクを更新しました。
  • また、メーリング リストで @costin が言及しているように、elasticsearch -hadoop dev ビルドを使用しようとしました。
0 投票する
1 に答える
719 参照

json - hadoop map-reduceとes-hadoopを使用してjsonをelasticsearchに索引付けする方法は?

インデックスを作成したい HDFS に格納された膨大なデータ セットがありますElasticsearch。自明な考え方は、Elasticsearch-hadoopライブラリを使用することです。

このビデオのコンセプトに従いました。この仕事のために書いたコードは次のとおりです。

ジョブは正常に機能しましたが、json 全体がtestinという名前の 1 つのフィールドに入れられElasticsearchます。フィールド名がこの行のキーであることは明らかですが、private final Text key = new Text("test");json フィールド全体が必要です。

Elasticsearch でドキュメントがどのように表示されるかを次に示します。

1 つのオプションは、json を手動で解析し、json の各キーにフィールドを割り当てることです。

他のオプションはありますか?

0 投票する
1 に答える
794 参照

java - Elasticsearch-hadoop map-reduce を使用して HDFS から Elasticsearch に json を書き込む

HDFS にいくつかの json データが保存されており、elasticsearch-hadoop map reduce を使用してデータを Elasticsearch に取り込もうとしています。

使用したコードは非常に単純です (以下)。

このコードは正常に機能しましたが、2 つの問題があります。

一番の問題はes.resource.write資産価値です。現在index_name、json のプロパティによって提供されます。

json に次のような配列型のプロパティが含まれている場合

たとえばes.resource.write、最初の値を取得するように構成するにはどうすればよいでしょうか?tag

使用しようとしまし{tags.tag}{tags[0].tag}が、どちらも機能しませんでした。

もう 1 つの問題は、tags プロパティの 2 つの値でジョブに json ドキュメントのインデックスを作成するにはどうすればよいですか?