問題タブ [shark-sql]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
1585 参照

hive - Hive での書き込みパフォーマンスの向上

でさまざまな計算を (UDF を使用して) 実行していHiveます。計算は十分に高速ですが、書き込みパフォーマンスが .1 で障害にぶつかっていHiveます。私の結果セットは 1,000 万レコードに近く、それらをテーブルに書き込むのに数分かかります。キャッシュされたテーブルとさまざまなファイル形式 ( ORCAND RC) を試しましたが、パフォーマンスの向上は見られませんでした。

を使用しているため、インデックスは使用できませんShark。書き込みパフォーマンスを改善するために試すことができるさまざまな方法について、SO コミュニティからの提案を知ることができれば幸いです。

ありがとう、TM

0 投票する
1 に答える
546 参照

amazon-ec2 - S3 にデータを書き込むときに、EC2 で実行されている Shark で「Wrong FS」エラーが表示されるのはなぜですか?

提供されたセットアップ スクリプトを使用して、Amazon EC2 で Shark/Spark (0.9.1) を実行しています。S3 からデータを読み取ってから、テーブルを S3 に書き戻そうとしています。データは S3 から正常に読み取ることができます (したがって、資格情報は正しいです) が、S3 にデータを書き込もうとすると、次のエラーが発生します。

14/07/31 16:42:30 INFO scheduler.TaskSetManager: java.lang.IllegalArgumentException による損失: 間違った FS: s3n://id:key@shadoop/tmp/hive-root/hive_2014-07-31_16- 39-29_825_6436105804053790400/_tmp.-ext-10000、予想: hdfs://ecmachine.compute-1.amazonaws.com:9000 [重複 3]

データ/テーブルを書き出すいくつかの異なる方法を試しましたが、すべて同じエラーが発生します。この特定のエラーは、次のような HQL クエリから生成されます。

S3が「間違ったFS」と見なされる理由について何か考えはありますか?

0 投票する
1 に答える
45 参照

cassandra - Spark での Amplab シャークのハイブ内部エラー

お願いします...助けが必要です。

hdfs/cassandraからデータを照会するためのsparkとsharkを構築する手順に従いました。hdfs に cassandra クラスターがあり、データベースを正常に表示できます。ただし、選択ステートメントを実行できません

サメ> call_flow limit 1 から * を選択します。失敗: Hive 内部エラー: java.lang.RuntimeException(java.lang.ClassNotFoundException: org.apache.hadoop.hive.cassandra.input.cql.HiveCqlInputFormat)

助けていただければ幸いです。

ありがとう

環境: カサンドラ 2.0.8、spark-0.9.0、shark-0.9.0

0 投票する
1 に答える
47 参照

bigdata - Shark 外部テーブルのパフォーマンス

ローカル ファイル システムにある Shark の外部テーブルからのクエリは、HDFS にあるデータを使用する場合と比較して、クエリ パフォーマンスの点でどうですか? サメのクエリを実行するために単一のハイエンド サーバーを使用する予定で、hadoop/hdfs をインストールする必要があるかどうか疑問に思っていました。

0 投票する
1 に答える
159 参照

hbase - HBase を使用した Amplab シャーク

サメのクエリを介して HBase テーブルへのアクセスを設定する良い方法は何ですか? https://cwiki.apache.org/confluence/display/Hive/HBaseIntegrationなど、Hive で HBase をセットアップすることを目的とした記事をいくつか調べましたが、これが Shark にどのように適用されるかはよくわかりません。私は主に、Shark を介して HBase からの読み取りを探しています。どんな助けでも大歓迎です、ありがとう。

0 投票する
1 に答える
609 参照

hadoop - 誰かがこれを説明できますか:「Spark SQL は Hive とは異なるユースケースをサポートしています。」

次のリンクを参照しています:Hive Support for Spark

それは言います:

「Spark SQL は、Hive とは異なるユース ケースをサポートしています。」

なぜそうなるのかはわかりません。これは、Hive ユーザーとして、Spark SQL を介して Spark 実行エンジンを使用できないということですか?

いくつかの質問:

  • Spark SQL は Hive クエリ パーサーを使用します。したがって、理想的にはすべての Hive 機能をサポートします。
  • Hive メタストアを使用しますか?
  • Hive は Spark オプティマイザーを使用しますか、それとも独自のオプティマイザーを構築しますか?
  • Hive は MR ジョブを Spark に変換しますか? それとも他のパラダイムを使用しますか?
0 投票する
2 に答える
711 参照

java - Datastax DSE Cassandra、Spark、Shark、スタンドアロン プログラム

Datastax Enterprise 4.5 を使用しています。私は設定を正しく行ったことを願っています.datastaxのWebサイトで説明されているようにしました。Windows サービスを使用して Cassandra DB に書き込むことができます。これは機能しますが、where 関数を使用して Spark でクエリを実行することはできません。

「./dse cassandra -k -t」(/bin フォルダー内) を使用して Cassandra ノード (テスト用に 1 つだけあります) を開始するので、hadoop と spark の両方が実行されます。問題なく Cassandra に書き込むことができます。

そのため、'where' が RowKey でない場合、Cassandra クエリで 'where' 句を使用することはできません。そのため、Spark/Shark を使用する必要があります。必要なすべてのクエリをサメ (./dse shark) で開始して使用できますが、Scala または Java でスタンドアロン プログラムを作成する必要があります。

だから私はこのリンクを試しました: https://github.com/datastax/spark-cassandra-connector

そして、次のような単純なステートメントをクエリできます。

これはうまくいきますが、より多くの行または数を要求すると:

次に、この例外が発生します。

Javaでこれを試すと、同じ問題が発生します。誰もこの問題を知っていますか?DB 構成が正しいかどうか、または scala/Javaprogram が正しく機能するかどうかはわかりません。一部のポートがブロックされている可能性がありますが、7077 と 4040 は開いています。

補足: Cassandra DB で spark を開始すると、次のようなクエリを実行できます。

しかし、次のような「where」句を使用すると:

私はこの例外を受け取ります:

理由はありますか?Spark で where 句を使用できると思いましたか?

ありがとうございました!

0 投票する
1 に答える
1061 参照

apache-spark - DSE 4.5.1 で Spark/Shark を起動するにはどうすればよいですか

これは最初はそのままで機能していましたが、AWS がこのサーバーをシャットダウンしてくれました。そこで私はそれを再構築し、新しいジョブ トラッカーにしました (古いジョブ トラッカーでもありました)。Spark/Shark を実行する方法がわかりません。dse shark環境変数を追加する場合と同じように、入力するだけで同じ出力が得られます。何が欠けているのか、どの変数をどこに設定すれば機能するのかわかりません。

更新:からの出力dsetool status:

更新 2:

要求されたその他のファイルは次のとおりです: http://pastie.org/9527227

更新 3: system.log ファイルはこちらから入手できます: http://pastebin.com/TaRYUSf4