“apache-spark-sql”の関連問題_Stack Overflow日本語サイト

0 投票する

4 に答える

70778 参照

java - Apache Spark と Java を使用して CSV を DataFrame/DataSet として解析する

私はsparkが初めてで、group-byとreduceを使用して、CSVから次のものを見つけたいと思っています(採用された1行):

部門、指定、州ごとにグループ化して、 sum(costToCompany)とTotalEmployeeCountを含む追加の列を使用して、about CSV を簡略化したいと思います。

次のような結果が得られるはずです。

変換とアクションを使用してこれを達成する方法はありますか? それとも、RDD 操作を行うべきでしょうか?

2014-08-18T12:07:52.440

0 投票する

2 に答える

3864 参照

scala - Scala のシンボルが列参照として受け入れられないのはなぜですか?

Spark SQL の例を試してみると、式が必要な場合を除いてうまく機能するようです。

文書化されていないインポートが必要なようです。

すべてを一括インポートする場合

編集：...そして

できます。

scala apache-spark-sql

2014-09-09T13:03:47.023

0 投票する

0 に答える

634 参照

apache-spark - DStreams で SparkSQL を実行すると、org.apache.spark.rdd.ShuffledRDDPartition で ClassCastException が発生するのはなぜですか?

DStream の各 RDD で SparkSQL を実行すると、ClassCastException が発生します。

apache-spark spark-streaming rdd apache-spark-sql

2014-09-13T05:10:32.033

0 投票する

1 に答える

804 参照

apache-spark - Spark SQL で Avro テーブルをクエリする方法

Hive 0.13 にキー/値テーブルがあります (キーと値は avro 型です)。Spark SQL 1.1 でクエリを実行しようとすると、次のエラーが発生します (Hive では機能します)。

apache-spark hiveql apache-spark-sql

2014-09-16T07:27:30.430

0 投票する

0 に答える

706 参照

apache-spark-sql - Spark シェル実行時の java.lang.stackoverflowerror

spark sql プログラミングガイドのドキュメントに従って例をテストしましたが、java.lang.stackoverflowerror呼び出すたびに発生しましたsqlContext.sql("...")。

その間、それはうまくいきましたhiveContext. Hadoop のバージョンは 2.2.0、Spark のバージョンは 1.1.0 で、Yarn、Hive でビルドされています。どなたか手を貸していただければ幸いです。

java.lang.StackOverflowError at scala.util.parsing.combinator.Parsers$Parser$$anonfun$append$1.apply(Parsers.scala:254) at scala.util.parsing.combinator.Parser$$anonfun$append$1 .apply(Parsers.scala:254) at scala.util.parsing.combinator.Parsers$$anon$3.apply(Parsers.scala:222) at scala.util.parsing.combinator.Parsers$Parser$$anonfun$append$1 .apply(Parsers.scala:254) at scala.util.parsing.combinator.Parsers$Parser$$anonfun$append$1.apply(Parsers.scala:254) at scala.util.parsing.combinator.Parsers$$anon$3 .apply(Parsers.scala:222) at scala.util.parsing.combinator.Parsers$Parser$$anonfun$append$1.apply(Parsers.scala:254) at scala.util.parsing.combinator.Parsers$Parser$$ anonfun$append$1.apply(Parsers.scala:254) で scala.util.parsing.combinator.Parsers$$anon$3.apply(Parsers.scala:222) scala.util.parsing.combinator.Parsers$Parser$$anonfun$append$1.apply(Parsers.scala:254) で scala.util.parsing.combinator.Parsers$Parser$$anonfun$append$1.apply( Parsers.scala:254) で scala.util.parsing.combinator.Parsers$$anon$3.apply(Parsers.scala:222) で scala.util.parsing.combinator.Parsers$Parser$$anonfun$append$1.apply( Parsers.scala:254) で scala.util.parsing.combinator.Parsers$Parser$$anonfun$append$1.apply(Parsers.scala:254) で scala.util.parsing.combinator.Parsers$$anon$3.apply( Parsers.scala:222) で scala.util.parsing.combinator.Parsers$Parser$$anonfun$append$1.apply(Parsers.scala:254)compinator.Parsers$$anon$3.apply(Parsers.scala:222) で scala.util.parsing.combinator.Parsers$Parser$$anonfun$append$1.apply(Parsers.scala:254) で scala.util.parsing. compinator.Parsers$Parser$$anonfun$append$1.apply(Parsers.scala:254) で scala.util.parsing.combinator.Parsers$$anon$3.apply(Parsers.scala:222) で scala.util.parsing. Combinator.Parsers$Parser$$anonfun$append$1.apply(Parsers.scala:254)compinator.Parsers$$anon$3.apply(Parsers.scala:222) で scala.util.parsing.combinator.Parsers$Parser$$anonfun$append$1.apply(Parsers.scala:254) で scala.util.parsing. compinator.Parsers$Parser$$anonfun$append$1.apply(Parsers.scala:254) で scala.util.parsing.combinator.Parsers$$anon$3.apply(Parsers.scala:222) で scala.util.parsing. Combinator.Parsers$Parser$$anonfun$append$1.apply(Parsers.scala:254)

apache-spark-sql

2014-09-17T09:04:09.543

0 投票する

1 に答える

1189 参照

apache-spark - スパークSQLでのHadoopのマップ結合と同等

SparkでHadoopのmapjoinに相当するものを探していますが、これを見つけることができましたspark.sql.autoBroadcastJoinThreshold

spark SQL で問題なく動作しますか? 試してみましたが、シャッフルの読み書きはパラメータをつけてもつけなくても同じで効果がないようでした。

この値を設定してクエリを実行しましたsqlContext.sql("SET spark.sql.autoBroadcastJoinThreshold=100000000;")

SPARK-SQL に他の同等の概念はありますか?

ありがとう ..

apache-spark apache-spark-sql

2014-09-24T18:25:23.713

0 投票する

1 に答える

88 参照

apache-spark - RDD から保存されたテキストファイルから Shark クエリを作成する方法は?

私は持っていて、次のJavaPairRDD<String, String> resultsように呼び出して保存します：

次に、次のようなファイルのコンテンツを取得します。

ここで、Shark を使用して次のような 3 つのフィールドを持つテーブルを作成します。

どうやってやるの？

apache-spark shark-sql apache-spark-sql

2014-09-28T15:26:29.957

0 投票する

1 に答える

2002 参照

odbc - Spark 初心者 (ODBC/SparkSQL)

Spark クラスターのセットアップがあり、データセットでネイティブ scala と spark sql の両方を試しましたが、セットアップはほとんどの場合うまくいくようです。次の質問があります

クラスターへの ODBC/外部接続から、何を期待すればよいですか? - 管理者/開発者はデータを形成し、公開されるいくつかの RDD を永続化/キャッシュしますか? (ハイブテーブルの行を考えて) - spark/spark sql の「ハイブメタストア」に接続するのと同じことは何ですか?

ハイブの線に沿って考えるのは間違っていますか?

私のもう1つの質問は、ハイブクエリを発行すると（そしてテーブルなどを作成すると言うと）、hadoop/ハイブと同じハイブメタストアを使用します-sqlcontextを使用してSQLクエリを発行すると、テーブルはどこに作成されますか? - テーブルを永続化する場合、RDD を永続化するのと同じ概念ですか?

あなたの答えに感謝します

ニティア

odbc apache-spark apache-spark-sql

2014-10-03T17:02:51.383

問題タブ [apache-spark-sql]

Reference