問題タブ [apache-spark-dataset]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
scala - scala リストを DataFrame または DataSet に変換する
私はScalaが初めてです。スカラ リスト (ソース DataFrame で計算されたデータの結果を保持している) を Dataframe または Dataset に変換しようとしています。私はそれを行うための直接的な方法を見つけていません。ただし、リストを DataSet に変換するために次のプロセスを試みましたが、機能していないようです。以下の3つの状況を提供しています。
この変換を行う方法を教えてください。ありがとう。
scala - データフレーム行を更新された行にマップしようとしているときにエンコーダー エラーが発生しました
以下で説明するように、コードで同じことをしようとしているとき
ここから上記の参照を取得しました: Scala: How can I replace value in Dataframs using scala しかし、エンコーダーエラーが発生しています
データセットに格納されているタイプのエンコーダが見つかりません。プリミティブ型 (Int、S string など) と Product 型 (ケース クラス) は、spark.im plicits をインポートすることでサポートされます。_ 他の型をシリアル化するためのサポートは、将来のリリースで追加される予定です。
注: 私は spark 2.0 を使用しています!
dataset - Spark 2.0: RDD からデータセットへの移行
Java Spark アプリ (実際にはいくつかの計算に RDD を使用します) をDatasets
の代わりに使用するように調整したいと考えていますRDDs
。私はデータセットを初めて使用し、対応するデータセット操作にどのトランザクションをマップするかわかりません。
現時点では、次のようにマッピングします。
対応する質問は次のとおりです。
JavaRDD.mapToPair
メソッドに等しいDataset.groupByKey
?JavaPairRDD
にマップしKeyValueGroupedDataset
ますか?- メソッドと等しいメソッドはどれ
JavaPairRDD.aggregateByKey
ですか?
ただし、次の RDD コードをデータセットに移植したいと考えています。
私のコードはまだこれに見えます:
scala - Spark エラー: データセットに格納されているタイプのエンコーダーが見つかりません
Zeppelin ノートブックで Spark を使用していますが、groupByKey() が機能していないようです。
このコード:
このエラーが表示されます (おそらく、コンパイル エラーです。作業中のデータセットがかなり大きいため、すぐに表示されるためです)。
ケースクラスを追加して、すべての行をそれにマップしようとしましたが、それでも同じエラーが発生しました
私のデータフレームのスキーマは次のとおりです。
apache-spark - Spark がキャッシュなしでメモリ不足になる
Spark ジョブの実行中にメモリが不足する理由を理解するのに本当に苦労しています。RDD をデータベースからロードしましたが、RDD をキャッシュしていませんが、出力場所が見つからずにジョブが失敗します。
これはあまりにもクレイジーです...この問題を解決するために何をする必要があるのでしょうか?
スタンドアロン クラスタで実行しています
例外
scala - Spark データセット: groupBy MissingRequirementError 使用時の例外
Spark データセットの使用を開始しています。Spark 1.6.1 で groupby を実行すると、この例外に直面しています。
これは例外です
scala.reflect.internal.MissingRequirementError: オブジェクト $line19.$read が見つかりません。scala.reflect.internal.Mirrors$RootsBase.ensureModuleSymbol(Mirrors) で scala.reflect.internal.MissingRequirementError$.signal(MissingRequirementError.scala:16) .scala:126) で scala.reflect.internal.Mirrors$RootsBase.staticModule(Mirrors.scala:161) で scala.reflect.internal.Mirrors$RootsBase.staticModule(Mirrors.scala:21) で $iwC$$iwC$ $iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$typecreator2$1.apply(:32) at scala.reflect.api.TypeTags$WeakTypeTagImpl.tpe$lzycompute(TypeTags.scala:231) at scala .reflect.api.TypeTags$WeakTypeTagImpl.tpe(TypeTags.scala:231) org.apache.spark.sql.SQLImplicits$$typecreator10$1.apply(SQLImplicits.scala:
誰でも助けることができますか?