問題タブ [shark-sql]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - Apache Shark 0.9.1 は HDFS に接続できませんか?
Shark で実行すると、次のようになります。
私は得る:
エラー ログには次のように表示されます。
Shark が Hadoop でテーブルを作成しない理由を知っている人はいますか?
json - 複数の JSON レコードを 1 つのファイルから HIVE にロードする
JSON Serde を使用して JSON ファイルを Hive にロードしようとしています。一度に 1 つの JSON ファイルに対して動作させることはできますが、JSON ファイルに一度に複数のレコードを入れて、それらを一度にロードできるかどうか疑問に思っていました。アイデアを与えるために、私の JSON ファイルは次のようになります。
ファイル 1
ファイル 2
これらを組み合わせて、次のように 1 つの JSON ファイルを作成しました。
このファイルをロードすると、最初のレコードのみがロードされます。私のテーブルDDLは以下の通りです:
標準LOAD
コマンドを使用します。
テーブルをクエリすると、挿入されるレコードは 1 つだけです。
ここで JSON ファイルの作成に何か問題がありますか? または、1 つの JSON ファイルに 2 つのレコードを含めることはできませんか? どんな助けでも本当に感謝しています。
ありがとう、TM
scala - Shark の無効なキャッシュ タイプの例外
でキャッシュ テーブルを作成しようとしていますshark-0.8.0
。ドキュメント ( https://github.com/amplab/shark/wiki/Shark-User-Guide ) に従って、次のようにテーブルを作成しました。
テーブルが作成され、LOAD DATA
コマンドを使用してデータをロードできます。しかし、テーブルにクエリを実行しようとすると、SELECT COUNT(1)
ステートメントでさえ次のエラーで失敗します。
GitHub のコード ( https://github.com/amplab/shark/blob/master/src/main/scala/shark/memstore2/CacheType.scala ) によると、オプションMEMORY
は有効です。MEMORY_ONLY
オプションも試してみましたが、同じエラーが発生しています。ここで何がうまくいかないのかについての提案や考えはありますか?
ありがとう、TM
scala - Scala (shark-shell) から Shark テーブル (Hive) にアクセスする
でshark-0.8.0
実行されhive-0.9.0
ます。を呼び出すことで、Hive でプログラミングできshark
ます。いくつかのテーブルを作成し、それらにデータをロードしました。
今、私はこれらのテーブルからデータにアクセスしようとしていますScala
. Scala
を使用してシェルを呼び出しましたshark-shell
。しかし、選択しようとすると、テーブルが存在しないというエラーが表示されます。
ドキュメント ( https://github.com/amplab/shark/wiki/Shark-User-GuideShark
) から、これらの手順は、起動して実行し、 を使用してデータを選択するのに十分Scala
です。または、何か不足していますか?から Shark にアクセスできるようにするために変更する必要がある構成ファイルはありますshark-shell
か?
hadoop - JSON Serde ベースの Hive テーブルから Parquet テーブルにデータをロードする際の問題
HIVE
を使用して定義されたテーブルがありますJSON Serde
。Shark
ディストリビューション ( http://shark.cs.berkeley.edu/ )を使用しています。定義は次のとおりです。
このテーブルにデータを正常にロードできます。今、私はParquet
ベーステーブルを作成しましたHIVE
。
ここで、次のコマンドを使用して、JSON Serde
テーブルからテーブルにデータをロードしようとします。Parquet
insert
ステートメントは正常に完了します。しかし、Parquet
テーブル内のデータをクエリすると、すべての列にNULL
値が入力されます。同様の問題をオンラインで検索しましたが、同様の問題はまだ見当たりません。ここで何がうまくいかないのか、誰か考えている人はいますか?
ありがとう、ヴィサフ
cassandra - Cassandra を使用したビッグデータのリアルタイム処理
私は販売員向けのアプリケーションを開発しています。アプリケーションでビッグ データを管理する方法がわかりません。以下にシナリオを示します。
次の基準に基づいて場所を分割しています。
国 => 州 => 都市 => 領土 => エリア => アウトレット。
毎日の売上を管理するための私のテーブル構造は、大まかに以下に詳述されています。
コンセント ID - 1,2,3,4,5,6 ...
ユーザー ID - EMP001、EMP002、EMP003、EMP004、EMP005、EMP006 ...
製品 ID - 78,54,21,11,09,83 ..
数量 - 12,34,67,43,70,03 ..
日時 - 2014 年 1 月 5 日 – 11.00、2014 年 1 月 5 日 – 12.00、2014 年 1 月 5 日 – 14.00 ..
およびその他のフィールド。上記のデータ構造に基づいて、リアルタイムで表示される多くのレポートがあります。
毎日 100 万行の挿入があります。NO-SQL データベースとして Casandra を絞り込みました。
今、リアルタイム分析を照会および管理できるデータベースが必要です。Hbase、Pig、Hive、Presto DB、Impala、Sharp、Shark などのオープン ソース ツールについて聞いたり読んだりします。
現在、リアルタイム分析と製品販売予測のアプリケーションに最適なものを判断できません。
皆様のご支援とご指導をよろしくお願いいたします。
ありがとう
apache-spark - Spark Streaming データに対して Shark クエリを実行することは可能ですか?
Spark Streaming アプリケーションの DStreams に含まれるデータに対して Shark クエリを実行することは可能ですか? (たとえば foreachRDD 呼び出し内)
それを行うための特定の API はありますか?
ありがとう。
hadoop - Apache Shark を使用して SQL を実行しようとすると例外が発生する
私は、shark-0.9.1 (hive-0.11.0) でハイブ メタストアを使用しようとしています。今のところ、単一のノードで実行できることを嬉しく思います。奴隷制は関係ありません。ハイブを実行すると、テーブルを作成し、次のような SQL ステートメントを実行できます。
スパークを使用する場合、機能するのはほとんど唯一のものです
これは、以前にハイブで作成されたテーブルを示しています。
上記の SELECT のような他のステートメントでは、エラーが発生します。
(さらに「at java.lang....」)。
また、サメを初期化するときに、次のメッセージが表示されることにも注意しました。
これらの問題の理由は何ですか?私はこれに慣れていないので、見逃した非常に基本的なことを追加する必要があります。