問題タブ [spark-dataframe]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 日付と文字列データ型の比較によるPysparkフィルターデータフレーム
次の構造のpysparkにデータフレームがあります。
DataFrame[Urlaubdate: string, Vacationdate: date, Datensatz: string, Jobname: string]
さて、vacationdate と urlaubdate を比較してデータフレームをフィルタリングしたいと思いますが、残念ながらデータ型が異なります。Vacationdate が Urlaubdate より大きい行をフィルター処理したいと思います。それを行う方法はありますか?
pyspark - ML Spark とデータ フレームによる暗黙的な推奨
暗黙的な評価でレコメンダーを構築するために、Spark と Dataframes で新しい ML ライブラリを使用しようとしています。私のコード
ただし、このエラーで実行されます
pyspark.sql.utils.AnalysisException: 指定された入力列ユーザー、アイテムの「評価」を解決できません。
だから、データフレームを定義する方法がわからない
python - 寄木細工のファイルのスパーク クエリ - エラー トレースバックは、ファイルが見つからないことを示しています... しかし、ファイルはそこにあります。なんで?
私は寄木細工のファイルを使用して、Python を使用して Spark データフレームにデータを保持しています。
寄木細工は正しく保存されているように見えますが、データフレームに再度読み込まれると、df.show() が生成され、寄木細工のディレクトリに欠落しているファイルがあることを示すトレースバックでエラーが発生します。
奇妙なことに、エラーが発生した直後に ls コマンドを実行すると、ファイルがそこにあることが示されます。
何が起こっているのかについて何か考えはありますか?
ipynb の関連部分を平文で以下に示します。
scala - Scala を使用して RDD を Spark の DataFrame に変換する
私は持っているtextRDD: org.apache.spark.rdd.RDD[(String, String)]
それをDataFrameに変換したいと思います。列は、各ページ(行)のタイトルと内容に対応しています。
scala - RDD[org.apache.spark.sql.Row] を RDD[org.apache.spark.mllib.linalg.Vector] に変換する
私はSparkとScalaに比較的慣れていません。
次のデータフレーム (Double の密な Vector から作成された単一の列) から始めています。
RDD に直接変換すると、 org.apache.spark.rdd.RDD[org.apache.spark.sql.Row] のインスタンスが生成されます。
代わりに、この DF を org.apache.spark.rdd.RDD[org.apache.spark.mllib.linalg.Vector] のインスタンスに変換する方法を知っている人はいますか? これまでのところ、私のさまざまな試みは成功していません。
ご指摘ありがとうございます。
scala - 1.4 DF API (Scala) を使用して 2 つの文字列列またはリテラルを文字列列に連結する方法
「+」関数を使用して 2 つの文字列列またはリテラルを文字列列と連結しようとすると、結果は常に null になります。
というわけで、コラムはどうでもいいです。ただし、+ 演算子は常に null を返します。concat
1.4 API に関数が見つかりません。
リテラルでも同じです
java - Spark アプリケーションが 2 つのデータ フレームで結合操作を実行している時点でハングする
私はスパークするのが初めてで、「等しくない」条件で2つのデータフレームに結合しています。ある時点で私のプログラムは停止し、それ以上実行されず、例外も発生しません。
100000 レコードを含む単純なテキスト ファイルを使用しています。
プログラムに非遅延メソッド「collectAsList」があり、結合が実行されます。
スタック トレースは次のとおりです。
scala - Spark データフレームの列の null 許容プロパティを変更する
テスト用のデータフレームを手動で作成しています。それを作成するコードは次のとおりです。
したがって、スキーマは次のようになります。
これらの変数のそれぞれに対して「nullable = true」を作成したいと思います。最初から宣言するか、作成後に新しいデータフレームに切り替えるにはどうすればよいですか?