“shark-sql”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

607 参照

mysql - Mac OSX で Apache SHARK を使用してクエリを実行する

Mac OSX 10.8 でローカルに Shark を使用してクエリを実行できません。Hive に保存されているデータに対していくつかのテストクエリを実行しようとしています。私は Scala 2.9.3 と Hive 0.9.0 を使用していますが、どちらも正常に動作しているようです。Hive データベースは、MySQL を使用してメタデータを保存しています。

Shark は問題なく起動できます。Shark コンソールで、Hive のすべてのデータベースを確認できます。目的のデータベースに切り替えることができます。しかし、データをクエリしようとすると、エラーが発生します。

簡単なクエリは次のようになります。

エラーは次のようになります。

2014-02-03T19:07:07.290

0 投票する

2 に答える

772 参照

scala - hadoop 2.2.0でshark-0.9.0を実行中にIncompatibleClassChangeErrorを取得する

サメ 0.9.0 の実行中に次のエラーが発生します。

スレッド「メイン」の例外 java.lang.IncompatibleClassChangeError: クラス scala.collection.mutable.ArrayOps が見つかりましたが、shark.SharkCliDriver$.main(SharkCliDriver.scala:82) で shark.SharkCliDriver.main(SharkCliDriver.scala) でインターフェイスが予期されていました)

問題に関する解決策は非常に高く評価されます。

scala shark-sql

2014-02-18T12:58:34.597

0 投票する

1 に答える

121 参照

cassandra - カサンドラとサメの統合

サメを Cassandra で動作させようとしているので、Cassandra からサメにデータをプルしてクエリを実行します。私は CASH オープンソースストレージハンドラーを使用しました。shark をローカルで実行すると動作するように見えますが、分散モードでは、spark スレーブが出力をマスターに送り返さないように見えます (shark シェルで出力が表示されません)。

cassandra hive apache-spark shark-sql

2014-03-01T07:18:14.603

0 投票する

1 に答える

973 参照

hadoop - Spark クラスターのインストール、Hive の問題

Spark/Shark クラスターを起動しようとしていますが、同じ問題が発生し続けています。https://github.com/amplab/shark/wiki/Running-Shark-on-a-Clusterの指示に従い、記載されているように Hive に対処しました。

Shark Driver は Hadoop jar の別のバージョンを取得していると思いますが、その理由は不明です。

詳細は次のとおりです。

スパーク/シャーク 0.9.0

Apache Hadoop 2.3.0

Amplabs ハイブ 0.11

スカラ 2.10.3

Java 7

すべてをインストールしましたが、非推奨の警告と例外が表示されます。

14/03/14 11:24:47 INFO Configuration.deprecation: mapred.input.dir.recursive は非推奨です。代わりに、mapreduce.input.fileinputformat.input.dir.recursive を使用してください。

14/03/14 11:24:47 INFO Configuration.deprecation: mapred.max.split.size は廃止されました。代わりに、mapreduce.input.fileinputformat.split.maxsize を使用してください

例外：

hadoop apache-spark shark-sql

2014-03-18T10:43:49.493

0 投票する

1 に答える

417 参照

scala - Shark の開始: すべてのクエリがハングアップ

私はシャークの初心者ですが、スパークの経験はあります。サメからデータを取得しようとする試みはすべてハングしています。

準備段階として、spark が正常に動作していることを確認しましょう。

私は、shark-env.shがsparkのインストールを正しく指していることを注意深くチェックしました..

ここで、サメに行って、(a) 同じファイルの読み取りと (b) サメのテーブルの読み取りを試してみましょう

(a)

詳細

ここでは、shark-env.sh の関連セクションを示します。

サメの殻から、同じスパークサーバーと通信していることを確認しましょう

scala apache-spark shark-sql

2014-04-11T03:49:35.200

0 投票する

2 に答える

130 参照

apache-spark - Spark に関連して、いくつの Shark サーバーが必要ですか?

私は Spark/Shark を初めて使用し、3 つの Spark ワーカーでクラスターを作成しました。同じ 3 台のサーバーに Shark のインストールを開始しましたが、おそらくそれは不要であり、必要な Shark サーバーは 1 つだけであるという結論に達しています。これについて説明しているドキュメントは見つかりません。Spark/Hive が重い作業を行うため、必要な Shark サーバーは 1 つだけですか? それとも、Spark が存在するすべてのサーバーに配布する必要がありますか?

apache-spark shark-sql

2014-04-17T17:17:06.253

0 投票する

1 に答える

186 参照

sql - JOIN の数または行を制限する

両方のテーブルを結合しようとしています

もちろんこれは機能しますが、分布テーブルで指定された「カウント」に従って、スコアテーブルから返される行数を制限することもできます。残念ながら、これは機能しません。SELECT * FROM (SELECT) と JOIN(SELECT ...) の両方のサブクエリを試しました。理想的には、スコアのランダムサンプルも取得できます。

私は MS SQL と Oracle の多くのソリューションを見てきましたが、Hive のソリューションを見つけることができませんでした (おそらく Hive 0.13 でそれが可能ですが、Shark の基礎となる Hive をアップグレードする方法をまだ理解していません)。

Hive（およびShark）でそのようなことはまったく可能ですか、それとも私はこれを完全に間違った方法で行っていますか? 助けてくれて本当にありがとうございます！！

ところで-私はApache Shark 0.9.1を使用しており、Sharkをローカルで実行するための指示に従いました(つまり、Hadoop/Hiveクラスターではありません)。そして、私のテーブルは次のとおりです

これは私が取得したいものです:

sql hive shark-sql

2014-04-17T23:09:31.920

問題タブ [shark-sql]

Reference