問題タブ [spark-dataframe]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

3700 問題

0 投票する

1 に答える

3931 参照

amazon-s3 - AWS アクセスキー ID とシークレットアクセスキーをユーザー名またはパスワードとして指定する必要があります (Spark、Parquet、S3)。

s3 から寄木細工のファイルを読み取ろうとすると、非常に奇妙なエラーが発生します。スパークブックの次のコードスニペットを使用しています。

コードスニペットは問題なく実行されます。ただし、次の行を削除するたびに: df.write.parquet("s3n://adx-test/hdfs/pair.parquet")s3 から parquet ファイルを spark データフレームに読み込むことを意味します (最初に parquet ファイルを書き込まずに)、エラーが発生しました:

スレッド「メイン」の例外 java.lang.IllegalArgumentException: AWS アクセスキー ID とシークレットアクセスキーは、s3n URL の (それぞれ) ユーザー名またはパスワードとして指定するか、fs.s3n.awsAccessKeyId または fs.s3n を設定して指定する必要があります。 awsSecretAccessKey プロパティ (それぞれ)。

コードスニペットの先頭に hadoopConfiguration s3AccessKeyId とシークレットを既に設定しているため、かなり奇妙です。フォーマットで s3n url を使用したいのですs3n://accessId:secret@bucket/pathが、シークレットに/文字が含まれているようです。うまくいきません。

2015-09-13T17:20:42.237

0 投票する

1 に答える

2949 参照

scala - Spark - 関数からデータフレームとアキュムレータを返す

DataFrame1つと 2 つのアキュムレータを返す関数があります。spark-shell（jarから関数を呼び出して）手動で実行すると、期待どおりに機能します。を実行すると、アキュムレータ.countに値が入力されます。DataFrame

spark-submitしかし、アキュムレータから関数を呼び出すと、常に空のままになります。同じ奇妙な動作で2 を返そうとDataFrameしました: Works in spark-shell, do not from spark-submit.

これは、おそらく機能していない私のコードのスケルトンです。

scala apache-spark spark-dataframe

2015-09-13T21:56:15.713

0 投票する

1 に答える

23500 参照

scala - ある Spark データフレームを別のデータフレームに対してフィルタリングする方法

あるデータフレームを別のデータフレームに対してフィルタリングしようとしています:

ここで、df1 をフィルタリングし、user_id が df2("valid_id") にある df1 のすべての行を含むデータフレームを取得したいと考えています。つまり、user_id が 2、3、4、5、または 6 の df1 のすべての行が必要です。

一方、関数に対してフィルターを実行しようとすると、すべてがうまく見えます。

このエラーが発生するのはなぜですか? 構文に何か問題がありますか?

次のコメント私は左外部結合を試みました:

私はscala 2.10.5でspark 1.5.0を実行しています

scala apache-spark apache-spark-sql spark-dataframe

2015-09-18T23:46:15.053

0 投票する

1 に答える

2678 参照

python - Hive で Spark をビルドする必要があります (spark 1.5.0)

ビルド済みの spark 1.5.0 をダウンロードし、この単純なコードを pyspark 経由で実行します

生成エラー:

だから自分でコンパイルしようとした

hriftserver クリーンパッケージ

しかし、コンパイルされたバージョンでも同じエラーが発生します。

なにか提案を？

python maven apache-spark hive spark-dataframe

2015-09-30T05:23:40.673

1 2 3 4 5 6 7 8 9 10

問題タブ [spark-dataframe]

amazon-s3 - AWS アクセス キー ID とシークレット アクセス キーをユーザー名またはパスワードとして指定する必要があります (Spark、Parquet、S3)。

scala - Spark - 関数からデータフレームとアキュムレータを返す

scala - ある Spark データフレームを別のデータフレームに対してフィルタリングする方法

python - Hive で Spark をビルドする必要があります (spark 1.5.0)

Reference

amazon-s3 - AWS アクセスキー ID とシークレットアクセスキーをユーザー名またはパスワードとして指定する必要があります (Spark、Parquet、S3)。