問題タブ [elasticsearch-hadoop]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - ElasticSearch-Hadoop (es-hadoop) とは何ですか? また、ライブ Web アプリケーションの HBase に対する利点は何ですか?
説明から es-hadoop が何であるかは、私には完全には明らかではありません。
これは、データを ES クラスターから Hadoop 分析用の HDFS に移動する単なる「コネクター」ですか? もしそうなら、低レイテンシのテキスト クエリに HBase を使用しないのはなぜでしょうか?
es-Hadoop は通常の ES とは異なるインストールですか?
いくつかの説明をお願いします。
ありがとう。
hadoop - Hive から Elasticsearch への自動挿入
現在、Hadoop テキスト ファイルから Elasticsearch にデータを自動的に追加する方法を見つけようとしています。HIVE v0.11、Hadoop v2.0.5、Elasticsearch 1.7.1、elasticsearch-hadoop v2.1.0 を実行しています。ファイルはパス /tmp/test-log/apache2log の下のさまざまなサブフォルダーに保存され、年/月/日という名前が付けられています。作成は、Hadoop からデータを取得する際に機能します。
しかし、このデータをelasticsearchに挿入するテーブルを作成しようとすると、作成は正常に機能しますが、テーブルは空です。次のコマンドを試しました:
デフォルト設定から変更された変数:
Elasticsearch 用に 2 番目のテーブルを作成し、INSERT を使用してデータを追加する可能性があることはわかっています。ただし、プロセスを自動化する必要があるため、ファイルに追加されたデータは、hadoop に到着したときにテーブルに挿入する必要があります。
elasticsearch - Spark-Cassandra 対 Spark-Elasticsearch
私はかなり前から Elasticsearch を使用しており、Cassandra を使用した経験はほとんどありません。
現在、spark を使用してデータを処理したいプロジェクトがありますが、データをロードするためのデータストアとして Cassandra と Elasticsearch のどちらを使用するかを決定する必要があります。
コネクタに関しては、Cassandra と Elasticsearch の両方にデータをロードするための優れたコネクタが備わっているため、決定要因にはなりません。
決定する勝敗の要因は、Spark 内でデータをどれだけ速くロードできるかです。私のデータはほぼ 20 テラバイトです。
JMeter を使用していくつかのテストを実行し、結果を自分で確認できることは知っていますが、両方のシステムに精通している人に尋ねたいと思います。
ありがとう
elasticsearch - Spark Dataframe を Elasticsearch に保存 - 型の例外を処理できません
MySQL からデータを読み取り、Spark を使用して Elasticsearch に保存する簡単なジョブを設計しました。
コードは次のとおりです。
コードが非常に単純であることがわかります。データを DataFrame に読み取り、いくつかの列を選択してから、Dataframe でcount
基本的なアクションとして実行します。この時点まではすべて正常に動作します。
次に、データを Elasticsearch に保存しようとしますが、一部のタイプを処理できないために失敗します。ここでエラー ログを確認できます。
なぜそのタイプを処理できないのかわかりません。なぜこれが起こっているのか誰にも分かりますか?
Apache Spark 1.5.0、Elasticsearch 1.4.4、elaticsearch-hadoop 2.1.1 を使用しています
編集:
- ソースコードとともにサンプルデータセットで要点リンクを更新しました。
- また、メーリング リストで @costin が言及しているように、elasticsearch -hadoop dev ビルドを使用しようとしました。
json - hadoop map-reduceとes-hadoopを使用してjsonをelasticsearchに索引付けする方法は?
インデックスを作成したい HDFS に格納された膨大なデータ セットがありますElasticsearch
。自明な考え方は、Elasticsearch-hadoop
ライブラリを使用することです。
このビデオのコンセプトに従いました。この仕事のために書いたコードは次のとおりです。
ジョブは正常に機能しましたが、json 全体がtest
inという名前の 1 つのフィールドに入れられElasticsearch
ます。フィールド名がこの行のキーであることは明らかですが、private final Text key = new Text("test");
json フィールド全体が必要です。
Elasticsearch でドキュメントがどのように表示されるかを次に示します。
1 つのオプションは、json を手動で解析し、json の各キーにフィールドを割り当てることです。
他のオプションはありますか?
java - Elasticsearch-hadoop map-reduce を使用して HDFS から Elasticsearch に json を書き込む
HDFS にいくつかの json データが保存されており、elasticsearch-hadoop map reduce を使用してデータを Elasticsearch に取り込もうとしています。
使用したコードは非常に単純です (以下)。
このコードは正常に機能しましたが、2 つの問題があります。
一番の問題はes.resource.write
資産価値です。現在index_name
、json のプロパティによって提供されます。
json に次のような配列型のプロパティが含まれている場合
たとえばes.resource.write
、最初の値を取得するように構成するにはどうすればよいでしょうか?tag
使用しようとしまし{tags.tag}
た{tags[0].tag}
が、どちらも機能しませんでした。
もう 1 つの問題は、tags プロパティの 2 つの値でジョブに json ドキュメントのインデックスを作成するにはどうすればよいですか?