問題タブ [spark-dataframe]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
4897 参照

csv - 2 つの Spark DataFrame の単純結合が「org.apache.spark.sql.AnalysisException: 列名を解決できません」で失敗する

更新 これは、Databricks Spark CSV リーダーが DataFrame を作成する方法と関係があることがわかりました。以下の例では、Databricks CSV リーダーを使用して人とアドレスの CSV を読み取り、結果の DataFrame を Parquet 形式で HDFS に書き込みます。

コードを変更して DataFrame を作成しました: (people.csv と同様)

結果の DataFrame を Parquet 形式で HDFS に書き込むと、結合が期待どおりに機能します。

どちらの場合もまったく同じ CSV を読んでいます。


HDFS 上の 2 つの異なる寄木細工のファイルから作成された 2 つの DataFrame の単純な結合を実行しようとすると、問題が発生します。


[main] INFO org.apache.spark.SparkContext - Spark バージョン 1.4.1 の実行

Hadoop 2.7.0からの HDFS の使用


説明するサンプルを次に示します。


人の中身

アドレスの内容


結果は...

結果は...

デカルト結合は正常に機能し、printSchema() の結果は...

この結合...

次の例外が発生します。


people と address が共通のキー属性 (addressid) を持ち、使用されるように変更してみました。

しかし、同じ結果が得られました。

何か案は??

ありがとう

0 投票する
1 に答える
1445 参照

python - データフレームを Avro ファイルにダンプすると、Python で bytearray の変換に失敗するのはなぜですか?

次の問題に直面しています: Spark 1.4.1、Python 2.7.8、および spark-avro_2.10-1.0.0 を使用しています

spark-avro を使用して Python バイト配列を avro ファイルに格納しようとしています。私の目的は、特定の画像エンコーダーを使用してエンコードされた画像のチャンクに対応する一連のバイトを格納することです。

変換例外で失敗します:

問題を再現するために作成したサンプル例を次に示します。

これは、

そして、それは変換に失敗します!

0 投票する
4 に答える
19438 参照

java - Java Spark Dataframe API (1.4.1) で定義されていない max() および sum() のメソッド

のサンプルコードをコードに入れましたが、とundefinedDataFrame.groupBy()のメソッドが表示されました。max()sum()

max()andsum()メソッドを使用する場合、どの Java パッケージをインポートすればよいですか?

このサンプル コードの構文は正しいですか。

0 投票する
1 に答える
27099 参照

apache-spark-sql - Spark sql Dataframe - インポート sqlContext.implicits._

スパークコンテキストを作成するメインがあります:

次に、データフレームを作成し、データフレームでフィルターと検証を行います。

これはうまくいきます。

しかし、データフレームを送信して検証を別のファイルに移動しようとすると

それはデータフレームを取得し、検証と変換を行います:

エラーを回避するには: 「値$は StringContext のメンバーではありません」

ただし、を使用する には、次のように新しいファイルで定義されたいずれかimport sqlContext.implicits._ も必要です。sqlContext

または、

2つのファイル(メインと検証)にしようとしている分離が正しく行われていないような気がします...

これを設計する方法について何か考えはありますか?または単に sqlContext を関数に送信しますか?

ありがとう!

0 投票する
1 に答える
1173 参照

scala - Apache Spark での機能選択とワンホット エンコーディング

分類モデルに取り組んでいますが、モデルの正しい形式のデータを作成するのに問題があります。私のデータセットには、合計を含む 3 つの列があります。与えられた Bucketizer でこれらの列を離散化しました。残りの列は、文字列を値とするカテゴリです。StringIndexer を使用してこれらの機能を変換しました。その後、ChiSqSelector を介して最適な列を選択します。ここまでは順調ですね。しかし今、ダミー変数のカテゴリ機能を変換したいと考えています。LabeledPoints の形式でデータを既に持っているため、その方法がわかりません。ベクトルのセットからダミー変数に値を変換する簡単な方法または特定の解決策はありますか? または、この問題を別の方法で解決するための提案はありますか?

0 投票する
1 に答える
633 参照

scala - Spark: RDD のマージ

Spark 1.4 を使用すると、スキーマが異なる 2 つのデータフレームがあります。まあ言ってみれば:

DF1: 文字列A、文字列B DF2: 文字列C

次のように、2つを単一のデータフレームにマージ/結合したいと思います。

DF3: 文字列A、文字列B、文字列C

使用するキーがない場合、2 つを組み合わせる方法が見つからないようです。

0 投票する
3 に答える
95397 参照

scala - ScalaでDataFrameをRDDに変換するには?

dataframeを に変換する方法を教えてくださいRDD

0 投票する
1 に答える
214 参照

apache-spark - spark dataframe.filter(...).select(...) は順次検索またはハッシュアルゴリズムを使用しますか?

シナリオ: ルックアップ テーブルを作成し (入力は約 50 Mb の JSON ファイル)、メモリにキャッシュして、入力ファイルの各行 (各入力ファイルで約 10000 データ ポイント) の処理中にルックアップできるようにします。

問題: spark の dataframe.filter(...).select(...) メソッドは順次検索またはハッシュ検索を実行しますか? この場合、データをより速く取得するにはどうすればよいでしょうか? また、インデックスを作成する必要があるのか​​ 、それともハッシュテーブルを作成する必要があるのか​​ 疑問に思っていました(必要な場合、データフレームに対してどのように行われたのかわかりません)。