問題タブ [apache-spark-sql]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - Apache Spark と Java を使用して CSV を DataFrame/DataSet として解析する
私はsparkが初めてで、group-byとreduceを使用して、CSVから次のものを見つけたいと思っています(採用された1行):
部門、指定、州ごとにグループ化して、 sum(costToCompany)とTotalEmployeeCountを含む追加の列を使用して、about CSV を簡略化したいと思います。
次のような結果が得られるはずです。
変換とアクションを使用してこれを達成する方法はありますか? それとも、RDD 操作を行うべきでしょうか?
scala - Scala のシンボルが列参照として受け入れられないのはなぜですか?
Spark SQL の例を試してみると、式が必要な場合を除いてうまく機能するようです。
文書化されていないインポートが必要なようです。
すべてを一括インポートする場合
編集:...そして
できます。
apache-spark - DStreams で SparkSQL を実行すると、org.apache.spark.rdd.ShuffledRDDPartition で ClassCastException が発生するのはなぜですか?
DStream の各 RDD で SparkSQL を実行すると、ClassCastException が発生します。
apache-spark - Spark SQL で Avro テーブルをクエリする方法
Hive 0.13 にキー/値テーブルがあります (キーと値は avro 型です)。Spark SQL 1.1 でクエリを実行しようとすると、次のエラーが発生します (Hive では機能します)。
apache-spark-sql - Spark シェル実行時の java.lang.stackoverflowerror
spark sql プログラミング ガイドのドキュメントに従って例をテストしましたが、java.lang.stackoverflowerror
呼び出すたびに発生しましたsqlContext.sql("...")
。
その間、それはうまくいきましたhiveContext
. Hadoop のバージョンは 2.2.0、Spark のバージョンは 1.1.0 で、Yarn、Hive でビルドされています。どなたか手を貸していただければ幸いです。
java.lang.StackOverflowError at scala.util.parsing.combinator.Parsers$Parser$$anonfun$append$1.apply(Parsers.scala:254) at scala.util.parsing.combinator.Parser$$anonfun$append$1 .apply(Parsers.scala:254) at scala.util.parsing.combinator.Parsers$$anon$3.apply(Parsers.scala:222) at scala.util.parsing.combinator.Parsers$Parser$$anonfun$append$1 .apply(Parsers.scala:254) at scala.util.parsing.combinator.Parsers$Parser$$anonfun$append$1.apply(Parsers.scala:254) at scala.util.parsing.combinator.Parsers$$anon$3 .apply(Parsers.scala:222) at scala.util.parsing.combinator.Parsers$Parser$$anonfun$append$1.apply(Parsers.scala:254) at scala.util.parsing.combinator.Parsers$Parser$$ anonfun$append$1.apply(Parsers.scala:254) で scala.util.parsing.combinator.Parsers$$anon$3.apply(Parsers.scala:222) scala.util.parsing.combinator.Parsers$Parser$$anonfun$append$1.apply(Parsers.scala:254) で scala.util.parsing.combinator.Parsers$Parser$$anonfun$append$1.apply( Parsers.scala:254) で scala.util.parsing.combinator.Parsers$$anon$3.apply(Parsers.scala:222) で scala.util.parsing.combinator.Parsers$Parser$$anonfun$append$1.apply( Parsers.scala:254) で scala.util.parsing.combinator.Parsers$Parser$$anonfun$append$1.apply(Parsers.scala:254) で scala.util.parsing.combinator.Parsers$$anon$3.apply( Parsers.scala:222) で scala.util.parsing.combinator.Parsers$Parser$$anonfun$append$1.apply(Parsers.scala:254)compinator.Parsers$$anon$3.apply(Parsers.scala:222) で scala.util.parsing.combinator.Parsers$Parser$$anonfun$append$1.apply(Parsers.scala:254) で scala.util.parsing. compinator.Parsers$Parser$$anonfun$append$1.apply(Parsers.scala:254) で scala.util.parsing.combinator.Parsers$$anon$3.apply(Parsers.scala:222) で scala.util.parsing. Combinator.Parsers$Parser$$anonfun$append$1.apply(Parsers.scala:254)compinator.Parsers$$anon$3.apply(Parsers.scala:222) で scala.util.parsing.combinator.Parsers$Parser$$anonfun$append$1.apply(Parsers.scala:254) で scala.util.parsing. compinator.Parsers$Parser$$anonfun$append$1.apply(Parsers.scala:254) で scala.util.parsing.combinator.Parsers$$anon$3.apply(Parsers.scala:222) で scala.util.parsing. Combinator.Parsers$Parser$$anonfun$append$1.apply(Parsers.scala:254)
apache-spark - スパークSQLでのHadoopのマップ結合と同等
SparkでHadoopのmapjoinに相当するものを探していますが、これを見つけることができましたspark.sql.autoBroadcastJoinThreshold
- spark SQL で問題なく動作しますか? 試してみましたが、シャッフルの読み書きはパラメータをつけてもつけなくても同じで効果がないようでした。
この値を設定してクエリを実行しましたsqlContext.sql("SET spark.sql.autoBroadcastJoinThreshold=100000000;")
- SPARK-SQL に他の同等の概念はありますか?
ありがとう ..
apache-spark - RDD から保存されたテキスト ファイルから Shark クエリを作成する方法は?
私は持っていて、次のJavaPairRDD<String, String> results
ように呼び出して保存します:
次に、次のようなファイルのコンテンツを取得します。
ここで、Shark を使用して次のような 3 つのフィールドを持つテーブルを作成します。
どうやってやるの?
odbc - Spark 初心者 (ODBC/SparkSQL)
Spark クラスターのセットアップがあり、データセットでネイティブ scala と spark sql の両方を試しましたが、セットアップはほとんどの場合うまくいくようです。次の質問があります
クラスターへの ODBC/外部接続から、何を期待すればよいですか? - 管理者/開発者はデータを形成し、公開されるいくつかの RDD を永続化/キャッシュしますか? (ハイブ テーブルの行を考えて) - spark/spark sql の「ハイブ メタストア」に接続するのと同じことは何ですか?
ハイブの線に沿って考えるのは間違っていますか?
私のもう1つの質問は、ハイブクエリを発行すると(そしてテーブルなどを作成すると言うと)、hadoop/ハイブと同じハイブメタストアを使用します-sqlcontextを使用してSQLクエリを発行すると、テーブルはどこに作成されますか? - テーブルを永続化する場合、RDD を永続化するのと同じ概念ですか?
あなたの答えに感謝します
ニティア