問題タブ [shark-sql]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
mysql - Mac OSX で Apache SHARK を使用してクエリを実行する
Mac OSX 10.8 でローカルに Shark を使用してクエリを実行できません。Hive に保存されているデータに対していくつかのテスト クエリを実行しようとしています。私は Scala 2.9.3 と Hive 0.9.0 を使用していますが、どちらも正常に動作しているようです。Hive データベースは、MySQL を使用してメタデータを保存しています。
Shark は問題なく起動できます。Shark コンソールで、Hive のすべてのデータベースを確認できます。目的のデータベースに切り替えることができます。しかし、データをクエリしようとすると、エラーが発生します。
簡単なクエリは次のようになります。
エラーは次のようになります。
scala - hadoop 2.2.0でshark-0.9.0を実行中にIncompatibleClassChangeErrorを取得する
サメ 0.9.0 の実行中に次のエラーが発生します。
スレッド「メイン」の例外 java.lang.IncompatibleClassChangeError: クラス scala.collection.mutable.ArrayOps が見つかりましたが、shark.SharkCliDriver$.main(SharkCliDriver.scala:82) で shark.SharkCliDriver.main(SharkCliDriver.scala) でインターフェイスが予期されていました)
問題に関する解決策は非常に高く評価されます。
cassandra - カサンドラとサメの統合
サメを Cassandra で動作させようとしているので、Cassandra からサメにデータをプルしてクエリを実行します。私は CASH オープン ソース ストレージ ハンドラーを使用しました。shark をローカルで実行すると動作するように見えますが、分散モードでは、spark スレーブが出力をマスターに送り返さないように見えます (shark シェルで出力が表示されません)。
hadoop - Spark クラスターのインストール、Hive の問題
Spark/Shark クラスターを起動しようとしていますが、同じ問題が発生し続けています。https://github.com/amplab/shark/wiki/Running-Shark-on-a-Clusterの指示に従い、記載されているように Hive に対処しました。
Shark Driver は Hadoop jar の別のバージョンを取得していると思いますが、その理由は不明です。
詳細は次のとおりです。
スパーク/シャーク 0.9.0
Apache Hadoop 2.3.0
Amplabs ハイブ 0.11
スカラ 2.10.3
Java 7
すべてをインストールしましたが、非推奨の警告と例外が表示されます。
14/03/14 11:24:47 INFO Configuration.deprecation: mapred.input.dir.recursive は非推奨です。代わりに、mapreduce.input.fileinputformat.input.dir.recursive を使用してください。
14/03/14 11:24:47 INFO Configuration.deprecation: mapred.max.split.size は廃止されました。代わりに、mapreduce.input.fileinputformat.split.maxsize を使用してください
例外:
scala - Shark の開始: すべてのクエリがハングアップ
私はシャークの初心者ですが、スパークの経験はあります。サメからデータを取得しようとする試みはすべてハングしています。
準備段階として、spark が正常に動作していることを確認しましょう。
私は、shark-env.shがsparkのインストールを正しく指していることを注意深くチェックしました..
ここで、サメに行って、(a) 同じファイルの読み取りと (b) サメのテーブルの読み取りを試してみましょう
(a)
詳細
ここでは、shark-env.sh の関連セクションを示します。
サメの殻から、同じスパークサーバーと通信していることを確認しましょう
apache-spark - Spark に関連して、いくつの Shark サーバーが必要ですか?
私は Spark/Shark を初めて使用し、3 つの Spark ワーカーでクラスターを作成しました。同じ 3 台のサーバーに Shark のインストールを開始しましたが、おそらくそれは不要であり、必要な Shark サーバーは 1 つだけであるという結論に達しています。これについて説明しているドキュメントは見つかりません。Spark/Hive が重い作業を行うため、必要な Shark サーバーは 1 つだけですか? それとも、Spark が存在するすべてのサーバーに配布する必要がありますか?
sql - JOIN の数または行を制限する
両方のテーブルを結合しようとしています
もちろんこれは機能しますが、分布テーブルで指定された「カウント」に従って、スコアテーブルから返される行数を制限することもできます。残念ながら、これは機能しません。SELECT * FROM (SELECT) と JOIN(SELECT ...) の両方のサブクエリを試しました。理想的には、スコアのランダム サンプルも取得できます。
私は MS SQL と Oracle の多くのソリューションを見てきましたが、Hive のソリューションを見つけることができませんでした (おそらく Hive 0.13 でそれが可能ですが、Shark の基礎となる Hive をアップグレードする方法をまだ理解していません)。
Hive(およびShark)でそのようなことはまったく可能ですか、それとも私はこれを完全に間違った方法で行っていますか? 助けてくれて本当にありがとうございます!!
ところで-私はApache Shark 0.9.1を使用しており、Sharkをローカルで実行するための指示に従いました(つまり、Hadoop/Hiveクラスターではありません)。そして、私のテーブルは次のとおりです
これは私が取得したいものです: