“spark-dataframe”の関連問題_Stack Overflow日本語サイト

0 投票する

2 に答える

4897 参照

csv - 2 つの Spark DataFrame の単純結合が「org.apache.spark.sql.AnalysisException: 列名を解決できません」で失敗する

更新これは、Databricks Spark CSV リーダーが DataFrame を作成する方法と関係があることがわかりました。以下の例では、Databricks CSV リーダーを使用して人とアドレスの CSV を読み取り、結果の DataFrame を Parquet 形式で HDFS に書き込みます。

コードを変更して DataFrame を作成しました: (people.csv と同様)

結果の DataFrame を Parquet 形式で HDFS に書き込むと、結合が期待どおりに機能します。

どちらの場合もまったく同じ CSV を読んでいます。

HDFS 上の 2 つの異なる寄木細工のファイルから作成された 2 つの DataFrame の単純な結合を実行しようとすると、問題が発生します。

[main] INFO org.apache.spark.SparkContext - Spark バージョン 1.4.1 の実行

Hadoop 2.7.0からの HDFS の使用

説明するサンプルを次に示します。

人の中身

アドレスの内容

結果は...

デカルト結合は正常に機能し、printSchema() の結果は...

この結合...

次の例外が発生します。

people と address が共通のキー属性 (addressid) を持ち、使用されるように変更してみました。

しかし、同じ結果が得られました。

何か案は？？

ありがとう

2015-09-02T14:47:00.487

0 投票する

1 に答える

1445 参照

python - データフレームを Avro ファイルにダンプすると、Python で bytearray の変換に失敗するのはなぜですか?

次の問題に直面しています: Spark 1.4.1、Python 2.7.8、および spark-avro_2.10-1.0.0 を使用しています

spark-avro を使用して Python バイト配列を avro ファイルに格納しようとしています。私の目的は、特定の画像エンコーダーを使用してエンコードされた画像のチャンクに対応する一連のバイトを格納することです。

変換例外で失敗します:

問題を再現するために作成したサンプル例を次に示します。

これは、

そして、それは変換に失敗します!

python apache-spark avro spark-dataframe

2015-09-07T15:13:59.440

0 投票する

4 に答える

19438 参照

java - Java Spark Dataframe API (1.4.1) で定義されていない max() および sum() のメソッド

のサンプルコードをコードに入れましたが、とundefinedDataFrame.groupBy()のメソッドが表示されました。max()sum()

max()andsum()メソッドを使用する場合、どの Java パッケージをインポートすればよいですか?

このサンプルコードの構文は正しいですか。

java apache-spark-sql spark-dataframe

2015-09-08T06:16:39.983

0 投票する

1 に答える

27099 参照

apache-spark-sql - Spark sql Dataframe - インポート sqlContext.implicits._

スパークコンテキストを作成するメインがあります：

次に、データフレームを作成し、データフレームでフィルターと検証を行います。

これはうまくいきます。

しかし、データフレームを送信して検証を別のファイルに移動しようとすると

それはデータフレームを取得し、検証と変換を行います:

エラーを回避するには: 「値$は StringContext のメンバーではありません」

ただし、を使用するには、次のように新しいファイルで定義されたいずれかimport sqlContext.implicits._ も必要です。sqlContext

または、

2つのファイル（メインと検証）にしようとしている分離が正しく行われていないような気がします...

これを設計する方法について何か考えはありますか？または単に sqlContext を関数に送信しますか?

ありがとう！

apache-spark-sql spark-dataframe

2015-09-08T09:19:38.010

0 投票する

1 に答える

1173 参照

scala - Apache Spark での機能選択とワンホットエンコーディング

分類モデルに取り組んでいますが、モデルの正しい形式のデータを作成するのに問題があります。私のデータセットには、合計を含む 3 つの列があります。与えられた Bucketizer でこれらの列を離散化しました。残りの列は、文字列を値とするカテゴリです。StringIndexer を使用してこれらの機能を変換しました。その後、ChiSqSelector を介して最適な列を選択します。ここまでは順調ですね。しかし今、ダミー変数のカテゴリ機能を変換したいと考えています。LabeledPoints の形式でデータを既に持っているため、その方法がわかりません。ベクトルのセットからダミー変数に値を変換する簡単な方法または特定の解決策はありますか? または、この問題を別の方法で解決するための提案はありますか?

scala apache-spark rdd spark-dataframe

2015-09-08T18:29:40.463

0 投票する

1 に答える

633 参照

scala - Spark: RDD のマージ

Spark 1.4 を使用すると、スキーマが異なる 2 つのデータフレームがあります。まあ言ってみれば：

DF1: 文字列A、文字列B DF2: 文字列C

次のように、2つを単一のデータフレームにマージ/結合したいと思います。

DF3: 文字列A、文字列B、文字列C

使用するキーがない場合、2 つを組み合わせる方法が見つからないようです。

scala apache-spark apache-spark-sql spark-dataframe

2015-09-09T15:14:59.993

0 投票する

3 に答える

95397 参照

scala - ScalaでDataFrameをRDDに変換するには?

dataframeをに変換する方法を教えてくださいRDD。

scala apache-spark apache-spark-sql spark-dataframe

2015-09-11T19:56:42.607

0 投票する

1 に答える

214 参照

apache-spark - spark dataframe.filter(...).select(...) は順次検索またはハッシュアルゴリズムを使用しますか?

シナリオ: ルックアップテーブルを作成し (入力は約 50 Mb の JSON ファイル)、メモリにキャッシュして、入力ファイルの各行 (各入力ファイルで約 10000 データポイント) の処理中にルックアップできるようにします。

問題: spark の dataframe.filter(...).select(...) メソッドは順次検索またはハッシュ検索を実行しますか? この場合、データをより速く取得するにはどうすればよいでしょうか? また、インデックスを作成する必要があるのか、それともハッシュテーブルを作成する必要があるのか疑問に思っていました（必要な場合、データフレームに対してどのように行われたのかわかりません）。

apache-spark apache-spark-sql spark-dataframe

2015-09-13T12:39:07.107

問題タブ [spark-dataframe]

Reference