問題タブ [apache-spark-dataset]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
3 に答える
29125 参照

scala - scala リストを DataFrame または DataSet に変換する

私はScalaが初めてです。スカラ リスト (ソース DataFrame で計算されたデータの結果を保持している) を Dataframe または Dataset に変換しようとしています。私はそれを行うための直接的な方法を見つけていません。ただし、リストを DataSet に変換するために次のプロセスを試みましたが、機能していないようです。以下の3つの状況を提供しています。

この変換を行う方法を教えてください。ありがとう。

0 投票する
4 に答える
39758 参照

scala - データフレーム行を更新された行にマップしようとしているときにエンコーダー エラーが発生しました

以下で説明するように、コードで同じことをしようとしているとき

ここから上記の参照を取得しました: Scala: How can I replace value in Dataframs using scala しかし、エンコーダーエラーが発生しています

データセットに格納されているタイプのエンコーダが見つかりません。プリミティブ型 (Int、S string など) と Product 型 (ケース クラス) は、spark.im plicits をインポートすることでサポートされます。_ 他の型をシリアル化するためのサポートは、将来のリリースで追加される予定です。

注: 私は spark 2.0 を使用しています!

0 投票する
0 に答える
1044 参照

dataset - Spark 2.0: RDD からデータセットへの移行

Java Spark アプリ (実際にはいくつかの計算に RDD を使用します) をDatasetsの代わりに使用するように調整したいと考えていますRDDs。私はデータセットを初めて使用し、対応するデータセット操作にどのトランザクションをマップするかわかりません。

現時点では、次のようにマッピングします。

対応する質問は次のとおりです。

  • JavaRDD.mapToPairメソッドに等しいDataset.groupByKey
  • JavaPairRDDにマップしKeyValueGroupedDatasetますか?
  • メソッドと等しいメソッドはどれJavaPairRDD.aggregateByKeyですか?

ただし、次の RDD コードをデータセットに移植したいと考えています。

私のコードはまだこれに見えます:

0 投票する
1 に答える
13470 参照

scala - Spark エラー: データセットに格納されているタイプのエンコーダーが見つかりません

Zeppelin ノートブックで Spark を使用していますが、groupByKey() が機能していないようです。

このコード:

このエラーが表示されます (おそらく、コンパイル エラーです。作業中のデータセットがかなり大きいため、すぐに表示されるためです)。

ケースクラスを追加して、すべての行をそれにマップしようとしましたが、それでも同じエラーが発生しました

私のデータフレームのスキーマは次のとおりです。

0 投票する
0 に答える
442 参照

apache-spark - Spark がキャッシュなしでメモリ不足になる

Spark ジョブの実行中にメモリが不足する理由を理解するのに本当に苦労しています。RDD をデータベースからロードしましたが、RDD をキャッシュしていませんが、出力場所が見つからずにジョブが失敗します。

これはあまりにもクレイジーです...この問題を解決するために何をする必要があるのでしょうか?

スタンドアロン クラスタで実行しています

例外

0 投票する
0 に答える
209 参照

scala - Spark データセット: groupBy MissingRequirementError 使用時の例外

Spark データセットの使用を開始しています。Spark 1.6.1 で groupby を実行すると、この例外に直面しています。

これは例外です

scala.reflect.internal.MissingRequirementError: オブジェクト $line19.$read が見つかりません。scala.reflect.internal.Mirrors$RootsBase.ensureModuleSymbol(Mirrors) で scala.reflect.internal.MissingRequirementError$.signal(MissingRequirementError.scala:16) .scala:126) で scala.reflect.internal.Mirrors$RootsBase.staticModule(Mirrors.scala:161) で scala.reflect.internal.Mirrors$RootsBase.staticModule(Mirrors.scala:21) で $iwC$$iwC$ $iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$typecreator2$1.apply(:32) at scala.reflect.api.TypeTags$WeakTypeTagImpl.tpe$lzycompute(TypeTags.scala:231) at scala .reflect.api.TypeTags$WeakTypeTagImpl.tpe(TypeTags.scala:231) org.apache.spark.sql.SQLImplicits$$typecreator10$1.apply(SQLImplicits.scala:

誰でも助けることができますか?