問題タブ [shark-sql]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
589 参照

hadoop - Apache Shark 0.9.1 は HDFS に接続できませんか?

Shark で実行すると、次のようになります。

私は得る:

エラー ログには次のように表示されます。

Shark が Hadoop でテーブルを作成しない理由を知っている人はいますか?

0 投票する
1 に答える
1977 参照

json - 複数の JSON レコードを 1 つのファイルから HIVE にロードする

JSON Serde を使用して JSON ファイルを Hive にロードしようとしています。一度に 1 つの JSON ファイルに対して動作させることはできますが、JSON ファイルに一度に複数のレコードを入れて、それらを一度にロードできるかどうか疑問に思っていました。アイデアを与えるために、私の JSON ファイルは次のようになります。

ファイル 1

ファイル 2

これらを組み合わせて、次のように 1 つの JSON ファイルを作成しました。

このファイルをロードすると、最初のレコードのみがロードされます。私のテーブルDDLは以下の通りです:

標準LOADコマンドを使用します。

テーブルをクエリすると、挿入されるレコードは 1 つだけです。

ここで JSON ファイルの作成に何か問題がありますか? または、1 つの JSON ファイルに 2 つのレコードを含めることはできませんか? どんな助けでも本当に感謝しています。

ありがとう、TM

0 投票する
1 に答える
106 参照

scala - Shark の無効なキャッシュ タイプの例外

でキャッシュ テーブルを作成しようとしていますshark-0.8.0。ドキュメント ( https://github.com/amplab/shark/wiki/Shark-User-Guide ) に従って、次のようにテーブルを作成しました。

テーブルが作成され、LOAD DATAコマンドを使用してデータをロードできます。しかし、テーブルにクエリを実行しようとすると、SELECT COUNT(1)ステートメントでさえ次のエラーで失敗します。

GitHub のコード ( https://github.com/amplab/shark/blob/master/src/main/scala/shark/memstore2/CacheType.scala ) によると、オプションMEMORYは有効です。MEMORY_ONLYオプションも試してみましたが、同じエラーが発生しています。ここで何がうまくいかないのかについての提案や考えはありますか?

ありがとう、TM

0 投票する
1 に答える
1977 参照

scala - Scala (shark-shell) から Shark テーブル (Hive) にアクセスする

shark-0.8.0実行されhive-0.9.0ます。を呼び出すことで、Hive でプログラミングできsharkます。いくつかのテーブルを作成し、それらにデータをロードしました。

今、私はこれらのテーブルからデータにアクセスしようとしていますScala. Scalaを使用してシェルを呼び出しましたshark-shell。しかし、選択しようとすると、テーブルが存在しないというエラーが表示されます。

ドキュメント ( https://github.com/amplab/shark/wiki/Shark-User-GuideShark ) から、これらの手順は、起動して実行し、 を使用してデータを選択するのに十分Scalaです。または、何か不足していますか?から Shark にアクセスできるようにするために変更する必要がある構成ファイルはありますshark-shellか?

0 投票する
0 に答える
1128 参照

hadoop - JSON Serde ベースの Hive テーブルから Parquet テーブルにデータをロードする際の問題

HIVEを使用して定義されたテーブルがありますJSON SerdeSharkディストリビューション ( http://shark.cs.berkeley.edu/ )を使用しています。定義は次のとおりです。

このテーブルにデータを正常にロードできます。今、私はParquetベーステーブルを作成しましたHIVE

ここで、次のコマンドを使用して、JSON Serdeテーブルからテーブルにデータをロードしようとします。Parquet

insertステートメントは正常に完了します。しかし、Parquetテーブル内のデータをクエリすると、すべての列にNULL値が入力されます。同様の問題をオンラインで検索しましたが、同様の問題はまだ見当たりません。ここで何がうまくいかないのか、誰か考えている人はいますか?

ありがとう、ヴィサフ

0 投票する
1 に答える
205 参照

cassandra - Cassandra を使用したビッグデータのリアルタイム処理

私は販売員向けのアプリケーションを開発しています。アプリケーションでビッグ データを管理する方法がわかりません。以下にシナリオを示します。

次の基準に基づいて場所を分割しています。

国 => 州 => 都市 => 領土 => エリア => アウトレット。

毎日の売上を管理するための私のテーブル構造は、大まかに以下に詳述されています。

コンセント ID - 1,2,3,4,5,6 ...

ユーザー ID - EMP001、EMP002、EMP003、EMP004、EMP005、EMP006 ...

製品 ID - 78,54,21,11,09,83 ..

数量 - 12,34,67,43,70,03 ..

日時 - 2014 年 1 月 5 日 – 11.00、2014 年 1 月 5 日 – 12.00、2014 年 1 月 5 日 – 14.00 ..

およびその他のフィールド。上記のデータ構造に基づいて、リアルタイムで表示される多くのレポートがあります。

毎日 100 万行の挿入があります。NO-SQL データベースとして Casandra を絞り込みました。

今、リアルタイム分析を照会および管理できるデータベースが必要です。Hbase、Pig、Hive、Presto DB、Impala、Sharp、Shark などのオープン ソース ツールについて聞いたり読んだりします。

現在、リアルタイム分析と製品販売予測のアプリケーションに最適なものを判断できません。

皆様のご支援とご指導をよろしくお願いいたします。

ありがとう

0 投票する
1 に答える
385 参照

apache-spark - Spark Streaming データに対して Shark クエリを実行することは可能ですか?

Spark Streaming アプリケーションの DStreams に含まれるデータに対して Shark クエリを実行することは可能ですか? (たとえば foreachRDD 呼び出し内)

それを行うための特定の API はありますか?

ありがとう。

0 投票する
0 に答える
351 参照

hadoop - Apache Shark を使用して SQL を実行しようとすると例外が発生する

私は、shark-0.9.1 (hive-0.11.0) でハイブ メタストアを使用しようとしています。今のところ、単一のノードで実行できることを嬉しく思います。奴隷制は関係ありません。ハイブを実行すると、テーブルを作成し、次のような SQL ステートメントを実行できます。

スパークを使用する場合、機能するのはほとんど唯一のものです

これは、以前にハイブで作成されたテーブルを示しています。

上記の SELECT のような他のステートメントでは、エラーが発生します。

(さらに「at java.lang....」)。

また、サメを初期化するときに、次のメッセージが表示されることにも注意しました。

これらの問題の理由は何ですか?私はこれに慣れていないので、見逃した非常に基本的なことを追加する必要があります。