問題タブ [spark-dataframe]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
amazon-s3 - AWS アクセス キー ID とシークレット アクセス キーをユーザー名またはパスワードとして指定する必要があります (Spark、Parquet、S3)。
s3 から寄木細工のファイルを読み取ろうとすると、非常に奇妙なエラーが発生します。スパークブックの次のコードスニペットを使用しています。
コード スニペットは問題なく実行されます。ただし、次の行を削除するたびに: df.write.parquet("s3n://adx-test/hdfs/pair.parquet")
s3 から parquet ファイルを spark データフレームに読み込むことを意味します (最初に parquet ファイルを書き込まずに)、エラーが発生しました:
スレッド「メイン」の例外 java.lang.IllegalArgumentException: AWS アクセス キー ID とシークレット アクセス キーは、s3n URL の (それぞれ) ユーザー名またはパスワードとして指定するか、fs.s3n.awsAccessKeyId または fs.s3n を設定して指定する必要があります。 awsSecretAccessKey プロパティ (それぞれ)。
コード スニペットの先頭に hadoopConfiguration s3AccessKeyId とシークレットを既に設定しているため、かなり奇妙です。フォーマットで s3n url を使用したいのですs3n://accessId:secret@bucket/path
が、シークレットに/
文字が含まれているようです。うまくいきません。
scala - Spark - 関数からデータフレームとアキュムレータを返す
DataFrame
1つと 2 つのアキュムレータを返す関数があります。spark-shell
(jarから関数を呼び出して)手動で実行すると、期待どおりに機能します。を実行すると、アキュムレータ.count
に値が入力されます。DataFrame
spark-submit
しかし、アキュムレータから関数を呼び出すと、常に空のままになります。同じ奇妙な動作で2 を返そうとDataFrame
しました: Works in spark-shell
, do not from spark-submit
.
これは、おそらく機能していない私のコードのスケルトンです。
scala - ある Spark データフレームを別のデータフレームに対してフィルタリングする方法
あるデータフレームを別のデータフレームに対してフィルタリングしようとしています:
ここで、df1 をフィルタリングし、user_id が df2("valid_id") にある df1 のすべての行を含むデータフレームを取得したいと考えています。つまり、user_id が 2、3、4、5、または 6 の df1 のすべての行が必要です。
一方、関数に対してフィルターを実行しようとすると、すべてがうまく見えます。
このエラーが発生するのはなぜですか? 構文に何か問題がありますか?
次のコメント 私は左外部結合を試みました:
私はscala 2.10.5でspark 1.5.0を実行しています
python - Hive で Spark をビルドする必要があります (spark 1.5.0)
ビルド済みの spark 1.5.0 をダウンロードし、この単純なコードを pyspark 経由で実行します
生成エラー:
だから自分でコンパイルしようとした
hriftserver クリーン パッケージ
しかし、コンパイルされたバージョンでも同じエラーが発生します。
なにか提案を?