問題タブ [shark-sql]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
scala - テーブルのクエリ時にサメ/スパークが NPE をスローする
サメ/スパーク wiki の開発部分は非常に短いので、テーブルをプログラムでクエリするためのコードをまとめてみました。ここにあります ...
テーブル src を作成し、データを src に正常にロードできますが、最後のクエリで NPE がスローされて失敗しました。出力は次のとおりです...
ただし、bin/shark-withinfo によって呼び出されるシェル内で select * from src と入力して、src テーブルをクエリできます。
「bin/shark-shell」によってトリガーされたシェルでそのSQLを試してみませんか?ええと、私はその殻に入ることはできません。これが私が遭遇したエラーです...
https://groups.google.com/forum/?fromgroups=#!topic/shark-users/glZzrUfabGc
[編集 1]: この NPE は、SharkENV.sc が設定されていないために発生しているように見えるため、追加しました
sql2console 操作が実行される直前。その後、scala.tools.nsc の ClassNotFoundException が発生したため、手動で scala-compiler をクラスパスに追加しました。その後、コードは別の ClassNotFoundException を訴えました。クラスパスにサメの瓶を入れたので、修正方法がわかりません。
[編集 2]: わかりました。インタラクティブな repl を初期化する方法のサメのソース コードを正確に従うことによって、私が望むものを満たすことができる別のコードを見つけました。
これは醜いですが、少なくとも機能します。より堅牢なコードを書く方法についてのコメントは大歓迎です!!
プログラムでサメを操作したい人は、すべてのハイブとサメの jar が CLASSPATH にある必要があり、scala コンパイラもクラスパスにある必要があることに注意してください。もう 1 つの重要な点は、hadoop の conf もクラスパスにある必要があることです。
cassandra - Cassandra の CQL と Spark/Shark クエリと Hive/Hadoop (DSE バージョン) の比較
CQL とインメモリ クエリ エンジン Spark/Shark の使用について、ご意見やご感想をお聞かせください。私の知る限り、CQL プロセッサは各ノードの Cassandra JVM 内で実行されています。Cassandra クラスターに接続された Shark/Spark クエリ プロセッサは、分離されたクラスターの外部で実行されます。また、Datastax には、Hadoop/Hive のデプロイを可能にする Cassandra の DSE バージョンがあります。問題は、どのユース ケースで、他のソリューションではなく特定のソリューションを選択するかということです。
hive - ハイブとドリルはどのように統合されますか?
ドリルは、待ち時間の長い Hive とは対照的に、アドホックなドリル ダウン クエリ用の興味深いツールのように見えます。
これら2つの間に適切な統合があるはずですが、見つけられませんでした。
今日、すべての作業が Hive/Shark で行われていると仮定しましょう。どうすればそれを Drill と統合できますか?
ドリル エンジンに切り替える必要はありますか?
Shark と Hive に似た統合を探しています。
playframework-2.0 - Play フレームワークを Berkeley Shark と統合する
Plat 2.0.8 ベースの Scala アプリケーションから Berkeley Shark コンテキストに接続して、Shark テーブルからデータを取得しようとしています。これを行う方法を教えてください。Spark のドキュメントはまばらです。ありがとう
scala - CassandraでApache SparkとSharkの実行に成功した人はいますか
いくつかの Hive クエリをテストするために、Spark/Shark を実行するように 5 ノードの cassandra クラスターを構成しようとしています。Spark、Scala、Shark をインストールし、Amplab [Running Shark on a cluster] https://github.com/amplab/shark/wiki/Running-Shark-on-a-Clusterに従って構成しました 。
Shark CLI に入ることができ、Cassandra ColumnFamily テーブルの 1 つから EXTERNAL TABLE を作成しようとすると、このエラーが発生し続けます
例外 org.apache.hadoop.hive.ql.metadata.HiveException: Error in loading storage handler.org.apache.hadoop.hive.cassandra.CassandraStorageHandler で失敗しました
失敗: 実行エラー、org.apache.hadoop.hive.ql.exec.DDLTask からの戻りコード 1
HIVE_HOME、HADOOP_HOME、SCALA_HOME を構成しました。おそらく、HIVE_HOME と HADOOP_HOME を間違ったパスに向けているのでしょうか? HADOOP_HOME は Cassandra Hadoop フォルダー (/etc/dse/cassandra) に設定され、HIVE_HOME は Hadoop1/hive のアンパックされた Amplad ダウンロードに設定され、HIVE_CONF_DIR も Cassandra Hive パス (/etc/dse/hive) に設定されています。手順がありませんか?または、これらの場所を間違って構成しましたか? アイデアはありますか?どんな助けでも大歓迎です。ありがとう
hadoop - S3 の場所で Shark for Hive テーブルのパーティションを復元できない
EMR で Shark を使用しようとしていますが、場所が S3 バケットに設定されているテーブルからパーティションを復元できないようです。パーティションを表示しようとしても何も得られません。
私は自分のテーブルを次のように作成します
私のログ バケットには、 にある 1 つのログ ファイルが含まれていますs3://my-log/parsed-logs/dt=2014-01-03/level=ERROR/
。
このコマンドは、Hive 言語マニュアルによると、Amazon のMSCK REPAIR TABLE logs
Hive 拡張機能と同等であるはずですが、コマンドを実行すると、目に見えるパーティションが表示されません。Hiveでまったく同じことを試してみましたが、魅力的に機能しました。ALTER TABLE logs RECOVER PARTITIONS
ALTER TABLE logs RECOVER PARTITIONS
Shark を使用しているときに、ここで何か不足していますか?
maven - Shark API によるクエリが機能しない
クラスター上の Hive テーブルから Shark Java API を介してクエリ (単純な選択) を作成しようとしています。
ただし、次のエラー メッセージが表示されます。
このエラーが続きます:
Guava の依存関係に問題があるようですが、何が問題なのかわかりません。
Spark-0.8.0 、Shark-0.8.0、Hive-0.9.0、および Hadoop-4.5.0 を使用しています。
Guava を必要とする私の .pom ファイルの唯一の依存関係は次のとおりです。
この問題を解決する方法を知っている人はいますか?
ありがとう。