問題タブ [apache-spark-sql]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
4 に答える
70778 参照

java - Apache Spark と Java を使用して CSV を DataFrame/DataSet として解析する

私はsparkが初めてで、group-byとreduceを使用して、CSVから次のものを見つけたいと思っています(採用された1行):

部門、指定、州ごとにグループ化して、 sum(costToCompany)TotalEmployeeCountを含む追加の列を使用して、about CSV を簡略化したいと思います。

次のような結果が得られるはずです。

変換とアクションを使用してこれを達成する方法はありますか? それとも、RDD 操作を行うべきでしょうか?

0 投票する
2 に答える
3864 参照

scala - Scala のシンボルが列参照として受け入れられないのはなぜですか?

Spark SQL の例を試してみると、式が必要な場合を除いてうまく機能するようです。

文書化されていないインポートが必要なようです。

すべてを一括インポートする場合

編集:...そして

できます。

0 投票する
0 に答える
634 参照

apache-spark - DStreams で SparkSQL を実行すると、org.apache.spark.rdd.ShuffledRDDPartition で ClassCastException が発生するのはなぜですか?

DStream の各 RDD で SparkSQL を実行すると、ClassCastException が発生します。

0 投票する
1 に答える
804 参照

apache-spark - Spark SQL で Avro テーブルをクエリする方法

Hive 0.13 にキー/値テーブルがあります (キーと値は avro 型です)。Spark SQL 1.1 でクエリを実行しようとすると、次のエラーが発生します (Hive では機能します)。

0 投票する
0 に答える
706 参照

apache-spark-sql - Spark シェル実行時の java.lang.stackoverflowerror

spark sql プログラミング ガイドのドキュメントに従って例をテストしましたが、java.lang.stackoverflowerror呼び出すたびに発生しましたsqlContext.sql("...")

その間、それはうまくいきましたhiveContext. Hadoop のバージョンは 2.2.0、Spark のバージョンは 1.1.0 で、Yarn、Hive でビルドされています。どなたか手を貸していただければ幸いです。

java.lang.StackOverflowError at scala.util.parsing.combinator.Parsers$Parser$$anonfun$append$1.apply(Parsers.scala:254) at scala.util.parsing.combinator.Parser$$anonfun$append$1 .apply(Parsers.scala:254) at scala.util.parsing.combinator.Parsers$$anon$3.apply(Parsers.scala:222) at scala.util.parsing.combinator.Parsers$Parser$$anonfun$append$1 .apply(Parsers.scala:254) at scala.util.parsing.combinator.Parsers$Parser$$anonfun$append$1.apply(Parsers.scala:254) at scala.util.parsing.combinator.Parsers$$anon$3 .apply(Parsers.scala:222) at scala.util.parsing.combinator.Parsers$Parser$$anonfun$append$1.apply(Parsers.scala:254) at scala.util.parsing.combinator.Parsers$Parser$$ anonfun$append$1.apply(Parsers.scala:254) で scala.util.parsing.combinator.Parsers$$anon$3.apply(Parsers.scala:222) scala.util.parsing.combinator.Parsers$Parser$$anonfun$append$1.apply(Parsers.scala:254) で scala.util.parsing.combinator.Parsers$Parser$$anonfun$append$1.apply( Parsers.scala:254) で scala.util.parsing.combinator.Parsers$$anon$3.apply(Parsers.scala:222) で scala.util.parsing.combinator.Parsers$Parser$$anonfun$append$1.apply( Parsers.scala:254) で scala.util.parsing.combinator.Parsers$Parser$$anonfun$append$1.apply(Parsers.scala:254) で scala.util.parsing.combinator.Parsers$$anon$3.apply( Parsers.scala:222) で scala.util.parsing.combinator.Parsers$Parser$$anonfun$append$1.apply(Parsers.scala:254)compinator.Parsers$$anon$3.apply(Parsers.scala:222) で scala.util.parsing.combinator.Parsers$Parser$$anonfun$append$1.apply(Parsers.scala:254) で scala.util.parsing. compinator.Parsers$Parser$$anonfun$append$1.apply(Parsers.scala:254) で scala.util.parsing.combinator.Parsers$$anon$3.apply(Parsers.scala:222) で scala.util.parsing. Combinator.Parsers$Parser$$anonfun$append$1.apply(Parsers.scala:254)compinator.Parsers$$anon$3.apply(Parsers.scala:222) で scala.util.parsing.combinator.Parsers$Parser$$anonfun$append$1.apply(Parsers.scala:254) で scala.util.parsing. compinator.Parsers$Parser$$anonfun$append$1.apply(Parsers.scala:254) で scala.util.parsing.combinator.Parsers$$anon$3.apply(Parsers.scala:222) で scala.util.parsing. Combinator.Parsers$Parser$$anonfun$append$1.apply(Parsers.scala:254)

0 投票する
1 に答える
1189 参照

apache-spark - スパークSQLでのHadoopのマップ結合と同等

SparkでHadoopのmapjoinに相当するものを探していますが、これを見つけることができましたspark.sql.autoBroadcastJoinThreshold

  1. spark SQL で問題なく動作しますか? 試してみましたが、シャッフルの読み書きはパラメータをつけてもつけなくても同じで効果がないようでした。

この値を設定してクエリを実行しましたsqlContext.sql("SET spark.sql.autoBroadcastJoinThreshold=100000000;")

  1. SPARK-SQL に他の同等の概念はありますか?

ありがとう ..

0 投票する
1 に答える
88 参照

apache-spark - RDD から保存されたテキスト ファイルから Shark クエリを作成する方法は?

私は持っていて、次のJavaPairRDD<String, String> resultsように呼び出して保存します:

次に、次のようなファイルのコンテンツを取得します。

ここで、Shark を使用して次のような 3 つのフィールドを持つテーブルを作成します。

どうやってやるの?

0 投票する
1 に答える
2002 参照

odbc - Spark 初心者 (ODBC/SparkSQL)

Spark クラスターのセットアップがあり、データセットでネイティブ scala と spark sql の両方を試しましたが、セットアップはほとんどの場合うまくいくようです。次の質問があります

クラスターへの ODBC/外部接続から、何を期待すればよいですか? - 管理者/開発者はデータを形成し、公開されるいくつかの RDD を永続化/キャッシュしますか? (ハイブ テーブルの行を考えて) - spark/spark sql の「ハイブ メタストア」に接続するのと同じことは何ですか?

ハイブの線に沿って考えるのは間違っていますか?

私のもう1つの質問は、ハイブクエリを発行すると(そしてテーブルなどを作成すると言うと)、hadoop/ハイブと同じハイブメタストアを使用します-sqlcontextを使用してSQLクエリを発行すると、テーブルはどこに作成されますか? - テーブルを永続化する場合、RDD を永続化するのと同じ概念ですか?

あなたの答えに感謝します

ニティア