問題タブ [shark-sql]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hive - Hive での書き込みパフォーマンスの向上
でさまざまな計算を (UDF を使用して) 実行していHive
ます。計算は十分に高速ですが、書き込みパフォーマンスが .1 で障害にぶつかっていHive
ます。私の結果セットは 1,000 万レコードに近く、それらをテーブルに書き込むのに数分かかります。キャッシュされたテーブルとさまざまなファイル形式 ( ORC
AND RC
) を試しましたが、パフォーマンスの向上は見られませんでした。
を使用しているため、インデックスは使用できませんShark
。書き込みパフォーマンスを改善するために試すことができるさまざまな方法について、SO コミュニティからの提案を知ることができれば幸いです。
ありがとう、TM
amazon-ec2 - S3 にデータを書き込むときに、EC2 で実行されている Shark で「Wrong FS」エラーが表示されるのはなぜですか?
提供されたセットアップ スクリプトを使用して、Amazon EC2 で Shark/Spark (0.9.1) を実行しています。S3 からデータを読み取ってから、テーブルを S3 に書き戻そうとしています。データは S3 から正常に読み取ることができます (したがって、資格情報は正しいです) が、S3 にデータを書き込もうとすると、次のエラーが発生します。
14/07/31 16:42:30 INFO scheduler.TaskSetManager: java.lang.IllegalArgumentException による損失: 間違った FS: s3n://id:key@shadoop/tmp/hive-root/hive_2014-07-31_16- 39-29_825_6436105804053790400/_tmp.-ext-10000、予想: hdfs://ecmachine.compute-1.amazonaws.com:9000 [重複 3]
データ/テーブルを書き出すいくつかの異なる方法を試しましたが、すべて同じエラーが発生します。この特定のエラーは、次のような HQL クエリから生成されます。
S3が「間違ったFS」と見なされる理由について何か考えはありますか?
cassandra - Spark での Amplab シャークのハイブ内部エラー
お願いします...助けが必要です。
hdfs/cassandraからデータを照会するためのsparkとsharkを構築する手順に従いました。hdfs に cassandra クラスターがあり、データベースを正常に表示できます。ただし、選択ステートメントを実行できません
サメ> call_flow limit 1 から * を選択します。失敗: Hive 内部エラー: java.lang.RuntimeException(java.lang.ClassNotFoundException: org.apache.hadoop.hive.cassandra.input.cql.HiveCqlInputFormat)
助けていただければ幸いです。
ありがとう
環境: カサンドラ 2.0.8、spark-0.9.0、shark-0.9.0
bigdata - Shark 外部テーブルのパフォーマンス
ローカル ファイル システムにある Shark の外部テーブルからのクエリは、HDFS にあるデータを使用する場合と比較して、クエリ パフォーマンスの点でどうですか? サメのクエリを実行するために単一のハイエンド サーバーを使用する予定で、hadoop/hdfs をインストールする必要があるかどうか疑問に思っていました。
hbase - HBase を使用した Amplab シャーク
サメのクエリを介して HBase テーブルへのアクセスを設定する良い方法は何ですか? https://cwiki.apache.org/confluence/display/Hive/HBaseIntegrationなど、Hive で HBase をセットアップすることを目的とした記事をいくつか調べましたが、これが Shark にどのように適用されるかはよくわかりません。私は主に、Shark を介して HBase からの読み取りを探しています。どんな助けでも大歓迎です、ありがとう。
hadoop - 誰かがこれを説明できますか:「Spark SQL は Hive とは異なるユースケースをサポートしています。」
次のリンクを参照しています:Hive Support for Spark
それは言います:
「Spark SQL は、Hive とは異なるユース ケースをサポートしています。」
なぜそうなるのかはわかりません。これは、Hive ユーザーとして、Spark SQL を介して Spark 実行エンジンを使用できないということですか?
いくつかの質問:
- Spark SQL は Hive クエリ パーサーを使用します。したがって、理想的にはすべての Hive 機能をサポートします。
- Hive メタストアを使用しますか?
- Hive は Spark オプティマイザーを使用しますか、それとも独自のオプティマイザーを構築しますか?
- Hive は MR ジョブを Spark に変換しますか? それとも他のパラダイムを使用しますか?
java - Datastax DSE Cassandra、Spark、Shark、スタンドアロン プログラム
Datastax Enterprise 4.5 を使用しています。私は設定を正しく行ったことを願っています.datastaxのWebサイトで説明されているようにしました。Windows サービスを使用して Cassandra DB に書き込むことができます。これは機能しますが、where 関数を使用して Spark でクエリを実行することはできません。
「./dse cassandra -k -t」(/bin フォルダー内) を使用して Cassandra ノード (テスト用に 1 つだけあります) を開始するので、hadoop と spark の両方が実行されます。問題なく Cassandra に書き込むことができます。
そのため、'where' が RowKey でない場合、Cassandra クエリで 'where' 句を使用することはできません。そのため、Spark/Shark を使用する必要があります。必要なすべてのクエリをサメ (./dse shark) で開始して使用できますが、Scala または Java でスタンドアロン プログラムを作成する必要があります。
だから私はこのリンクを試しました: https://github.com/datastax/spark-cassandra-connector
そして、次のような単純なステートメントをクエリできます。
これはうまくいきますが、より多くの行または数を要求すると:
次に、この例外が発生します。
Javaでこれを試すと、同じ問題が発生します。誰もこの問題を知っていますか?DB 構成が正しいかどうか、または scala/Javaprogram が正しく機能するかどうかはわかりません。一部のポートがブロックされている可能性がありますが、7077 と 4040 は開いています。
補足: Cassandra DB で spark を開始すると、次のようなクエリを実行できます。
しかし、次のような「where」句を使用すると:
私はこの例外を受け取ります:
理由はありますか?Spark で where 句を使用できると思いましたか?
ありがとうございました!
apache-spark - DSE 4.5.1 で Spark/Shark を起動するにはどうすればよいですか
これは最初はそのままで機能していましたが、AWS がこのサーバーをシャットダウンしてくれました。そこで私はそれを再構築し、新しいジョブ トラッカーにしました (古いジョブ トラッカーでもありました)。Spark/Shark を実行する方法がわかりません。dse shark
環境変数を追加する場合と同じように、入力するだけで同じ出力が得られます。何が欠けているのか、どの変数をどこに設定すれば機能するのかわかりません。
更新:からの出力dsetool status
:
更新 2:
要求されたその他のファイルは次のとおりです: http://pastie.org/9527227
更新 3: system.log ファイルはこちらから入手できます: http://pastebin.com/TaRYUSf4