問題タブ [shark-sql]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - ODBC経由でSpark SQLに接続
このページによると: https://spark.apache.org/sql/ ODBC または JDBC 経由で既存の BI ツールを Spark SQL に接続できます。
これは基本的にEOLであるため、サメを意味するものではありません。
このため、私たちは Shark での開発を別のプロジェクトとして終了し、すべての開発リソースを Spark の新しいコンポーネントである Spark SQL に移しています。
BI ツール (Tableau など) は、ODBC 経由でサメの SQL にどのように接続しますか?
apache-spark - RDD から保存されたテキスト ファイルから Shark クエリを作成する方法は?
私は持っていて、次のJavaPairRDD<String, String> results
ように呼び出して保存します:
次に、次のようなファイルのコンテンツを取得します。
ここで、Shark を使用して次のような 3 つのフィールドを持つテーブルを作成します。
どうやってやるの?
hadoop - シャークとスパークのどちらがスピードに優れているか
この2つについて非常に混乱しています。サメはハイブと同じで、100倍高速で、スパークで動作することを知っています。スパークとサメの主な違いを知りたいです。どちらがより速いという意味です。
スパークを使用する必要があるとき、またはサメが必要なとき?????
apache-spark - SPARK - グループごとのクエリで関数を使用する方法
SHARKクエリをSPARKに移行します。
以下は、group by 句で関数を使用するサンプルのSHARKクエリです。
これと同じクエリがSPARK sql で機能しないため、以下のエラーが発生します。
エラー: org.apache.spark.sql.catalyst.errors.package$TreeNodeException: 式が GROUP BY にありません。
ソリューションの一部として、以下の SPARK クエリを使用しています。これは機能していますが、コードの変更が必要です。それは私の既存のプロジェクトに大きな影響を与えます。したがって、誰もが最小限の影響でより良いソリューションを手に入れることができます。
hadoop - テーブルに重複する行が含まれている場合はブール値 (1 または 0) を返します
Hive 0.9 のテーブルに重複がある場合、ブール値を返したいと思います。今のところ、これを行っています。
しかし、これは私にエラーを与えます:
「'where''v'''付近の入力を認識できません。」サブクエリ ソース [DB エラーコード = 11] で "
どこが間違っているのか、ここで何が欠けているのかわかりません!