問題タブ [apache-spark-dataset]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

908 問題

0 投票する

3 に答える

29125 参照

scala - scala リストを DataFrame または DataSet に変換する

私はScalaが初めてです。スカラリスト (ソース DataFrame で計算されたデータの結果を保持している) を Dataframe または Dataset に変換しようとしています。私はそれを行うための直接的な方法を見つけていません。ただし、リストを DataSet に変換するために次のプロセスを試みましたが、機能していないようです。以下の3つの状況を提供しています。

この変換を行う方法を教えてください。ありがとう。

2016-09-08T18:15:09.070

0 投票する

4 に答える

39758 参照

scala - データフレーム行を更新された行にマップしようとしているときにエンコーダーエラーが発生しました

以下で説明するように、コードで同じことをしようとしているとき

ここから上記の参照を取得しました: Scala: How can I replace value in Dataframs using scala しかし、エンコーダーエラーが発生しています

データセットに格納されているタイプのエンコーダが見つかりません。プリミティブ型 (Int、S string など) と Product 型 (ケースクラス) は、spark.im plicits をインポートすることでサポートされます。_ 他の型をシリアル化するためのサポートは、将来のリリースで追加される予定です。

注: 私は spark 2.0 を使用しています!

scala apache-spark apache-spark-sql apache-spark-dataset apache-spark-encoders

2016-09-11T06:21:39.167

0 投票する

0 に答える

1044 参照

dataset - Spark 2.0: RDD からデータセットへの移行

Java Spark アプリ (実際にはいくつかの計算に RDD を使用します) をDatasetsの代わりに使用するように調整したいと考えていますRDDs。私はデータセットを初めて使用し、対応するデータセット操作にどのトランザクションをマップするかわかりません。

現時点では、次のようにマッピングします。

対応する質問は次のとおりです。

JavaRDD.mapToPairメソッドに等しいDataset.groupByKey？
JavaPairRDDにマップしKeyValueGroupedDatasetますか?
メソッドと等しいメソッドはどれJavaPairRDD.aggregateByKeyですか?

ただし、次の RDD コードをデータセットに移植したいと考えています。

私のコードはまだこれに見えます:

dataset rdd apache-spark-dataset apache-spark-2.0

2016-09-12T12:06:33.987

0 投票する

1 に答える

13470 参照

scala - Spark エラー: データセットに格納されているタイプのエンコーダーが見つかりません

Zeppelin ノートブックで Spark を使用していますが、groupByKey() が機能していないようです。

このコード:

このエラーが表示されます (おそらく、コンパイルエラーです。作業中のデータセットがかなり大きいため、すぐに表示されるためです)。

ケースクラスを追加して、すべての行をそれにマップしようとしましたが、それでも同じエラーが発生しました

私のデータフレームのスキーマは次のとおりです。

scala apache-spark apache-spark-dataset apache-spark-encoders

2016-09-15T18:27:04.507

0 投票する

0 に答える

442 参照

apache-spark - Spark がキャッシュなしでメモリ不足になる

Spark ジョブの実行中にメモリが不足する理由を理解するのに本当に苦労しています。RDD をデータベースからロードしましたが、RDD をキャッシュしていませんが、出力場所が見つからずにジョブが失敗します。

これはあまりにもクレイジーです...この問題を解決するために何をする必要があるのでしょうか?

スタンドアロンクラスタで実行しています

例外

apache-spark apache-spark-sql spark-dataframe apache-spark-dataset

2016-09-19T15:09:47.197

0 投票する

0 に答える

209 参照

scala - Spark データセット: groupBy MissingRequirementError 使用時の例外

Spark データセットの使用を開始しています。Spark 1.6.1 で groupby を実行すると、この例外に直面しています。

これは例外です

scala.reflect.internal.MissingRequirementError: オブジェクト $line19.$read が見つかりません。scala.reflect.internal.Mirrors$RootsBase.ensureModuleSymbol(Mirrors) で scala.reflect.internal.MissingRequirementError$.signal(MissingRequirementError.scala:16) .scala:126) で scala.reflect.internal.Mirrors$RootsBase.staticModule(Mirrors.scala:161) で scala.reflect.internal.Mirrors$RootsBase.staticModule(Mirrors.scala:21) で $iwC$$iwC$ $iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$typecreator2$1.apply(:32) at scala.reflect.api.TypeTags$WeakTypeTagImpl.tpe$lzycompute(TypeTags.scala:231) at scala .reflect.api.TypeTags$WeakTypeTagImpl.tpe(TypeTags.scala:231) org.apache.spark.sql.SQLImplicits$$typecreator10$1.apply(SQLImplicits.scala:

誰でも助けることができますか？

scala apache-spark apache-spark-dataset apache-spark-1.6

2016-09-20T01:17:33.647

1 2 3 4 5 6 7 8 9 10

問題タブ [apache-spark-dataset]

scala - scala リストを DataFrame または DataSet に変換する

scala - データフレーム行を更新された行にマップしようとしているときにエンコーダー エラーが発生しました

dataset - Spark 2.0: RDD からデータセットへの移行

scala - Spark エラー: データセットに格納されているタイプのエンコーダーが見つかりません

apache-spark - Spark がキャッシュなしでメモリ不足になる

scala - Spark データセット: groupBy MissingRequirementError 使用時の例外

Reference

scala - データフレーム行を更新された行にマップしようとしているときにエンコーダーエラーが発生しました