問題タブ [spark-dataframe]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
2402 参照

python - 日付と文字列データ型の比較によるPysparkフィルターデータフレーム

次の構造のpysparkにデータフレームがあります。

DataFrame[Urlaubdate: string, Vacationdate: date, Datensatz: string, Jobname: string]

さて、vacationdate と urlaubdate を比較してデータフレームをフィルタリングしたいと思いますが、残念ながらデータ型が異なります。Vacationdate が Urlaubdate より大きい行をフィルター処理したいと思います。それを行う方法はありますか?

0 投票する
2 に答える
801 参照

pyspark - ML Spark とデータ フレームによる暗黙的な推奨

暗黙的な評価でレコメンダーを構築するために、Spark と Dataframes で新しい ML ライブラリを使用しようとしています。私のコード

ただし、このエラーで実行されます

pyspark.sql.utils.AnalysisException: 指定された入力列ユーザー、アイテムの「評価」を解決できません。

だから、データフレームを定義する方法がわからない

0 投票する
0 に答える
586 参照

python - 寄木細工のファイルのスパーク クエリ - エラー トレースバックは、ファイルが見つからないことを示しています... しかし、ファイルはそこにあります。なんで?

私は寄木細工のファイルを使用して、Python を使用して Spark データフレームにデータを保持しています。

寄木細工は正しく保存されているように見えますが、データフレームに再度読み込まれると、df.show() が生成され、寄木細工のディレクトリに欠落しているファイルがあることを示すトレースバックでエラーが発生します。

奇妙なことに、エラーが発生した直後に ls コマンドを実行すると、ファイルがそこにあることが示されます。

何が起こっているのかについて何か考えはありますか?

ipynb の関連部分を平文で以下に示します。


0 投票する
2 に答える
1303 参照

scala - Scala を使用して RDD を Spark の DataFrame に変換する

私は持っているtextRDD: org.apache.spark.rdd.RDD[(String, String)]

それをDataFrameに変換したいと思います。列は、各ページ(行)のタイトルと内容に対応しています。

0 投票する
3 に答える
14349 参照

scala - RDD[org.apache.spark.sql.Row] を RDD[org.apache.spark.mllib.linalg.Vector] に変換する

私はSparkとScalaに比較的慣れていません。

次のデータフレーム (Double の密な Vector から作成された単一の列) から始めています。

RDD に直接変換すると、 org.apache.spark.rdd.RDD[org.apache.spark.sql.Row] のインスタンスが生成されます。

代わりに、この DF を org.apache.spark.rdd.RDD[org.apache.spark.mllib.linalg.Vector] のインスタンスに変換する方法を知っている人はいますか? これまでのところ、私のさまざまな試みは成功していません。

ご指摘ありがとうございます。

0 投票する
1 に答える
1853 参照

scala - 1.4 DF API (Scala) を使用して 2 つの文字列列またはリテラルを文字列列に連結する方法

「+」関数を使用して 2 つの文字列列またはリテラルを文字列列と連結しようとすると、結果は常に null になります。

というわけで、コラムはどうでもいいです。ただし、+ 演算子は常に null を返します。concat1.4 API に関数が見つかりません。

リテラルでも同じです

0 投票する
0 に答える
1051 参照

java - Spark アプリケーションが 2 つのデータ フレームで結合操作を実行している時点でハングする

私はスパークするのが初めてで、「等しくない」条件で2つのデータフレームに結合しています。ある時点で私のプログラムは停止し、それ以上実行されず、例外も発生しません。

100000 レコードを含む単純なテキスト ファイルを使用しています。

プログラムに非遅延メソッド「collectAsList」があり、結合が実行されます。

スタック トレースは次のとおりです。

0 投票する
1 に答える
577 参照

scala - Spark で結合されたデータフレームをカウントできません

Spark Jobs の新人で、次の問題があります。

新しく結合されたデータフレームのいずれかでカウントを実行すると、ジョブが長時間実行され、メモリがディスクに流出します。ここに論理エラーはありますか?

これらの 2 つまたは 3 つのデータフレームをもうカウントできないのはなぜですか? 名前を変更してインデックス作成を台無しにしましたか?

ありがとうございました!

ここに画像の説明を入力

0 投票する
7 に答える
51317 参照

scala - Spark データフレームの列の null 許容プロパティを変更する

テスト用のデータフレームを手動で作成しています。それを作成するコードは次のとおりです。

したがって、スキーマは次のようになります。

これらの変数のそれぞれに対して「nullable = true」を作成したいと思います。最初から宣言するか、作成後に新しいデータフレームに切り替えるにはどうすればよいですか?