問題タブ [pyspark]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

30583 問題

0 投票する

1 に答える

3176 参照

apache-spark-sql - Spark で Row() を結合する

一見単純な質問ですが、答えが見つかりません。

問題: 1 つのフィールドを取り、そこから 3 つのフィールドを作成する map() に渡す関数を作成します。map() の出力で、入力 RDD と新しい/出力 RDD の両方のフィールドを含む新しい RDD を取得したいと考えています。どうすればいいですか？

より多くの出力 RDD を元の RDD に結合できるように、データのキーを関数の出力に追加する必要がありますか? それは適切な/ベストプラクティスですか？

さらに基本的なことですが、2 つの Row を組み合わせることができないようです。

これは、私が望むように new Row() を返しません。

ありがとう

apache-spark-sql pyspark

2015-04-10T17:59:36.497

0 投票する

2 に答える

1719 参照

apache-spark - FlatMap 値とその列インデックス

次のデータセットがあるとしましょう

私がやろうとしているのは、値を列インデックスであるキーと値である値にフラットマップすることです。誰でも私にガイダンスを与えることができますか？列のインデックスを取得するのは難しいと思います。

apache-spark pyspark

2015-04-10T18:02:04.767

0 投票する

1 に答える

2510 参照

numpy - pyspark を使用して s3 からストリーミングデータを読み取る

非常に単純なテキスト解析と関数型プログラミング機能のために python を活用したいと思います。また、numpy や scipy などの科学計算ライブラリの豊富な機能を活用したいと考えているため、タスクに pyspark を使用したいと考えています。

最初に実行しようとしているタスクは、ストリームの一部として書き込まれているテキストファイルがあるバケットから読み取ることです。誰かが pyspark を使用して s3 パスからストリーミングデータを読み取る方法のコードスニペットを貼り付けることができますか? これは最近まで scala と java を使用してのみ実行できると思っていましたが、今日、spark 1.2 以降、ストリーミングが pyspark でもサポートされていることを知りましたが、S3 ストリーミングがサポートされているかどうかは不明です?

私がscalaで行っていた方法は、HadoopTextFileとして読み込んで、構成パラメーターを使用してawsキーとシークレットを設定することです。pysparkで同様のことを行うにはどうすればよいですか?

どんな助けでも大歓迎です。

前もって感謝します。

numpy amazon-web-services amazon-s3 apache-spark pyspark

2015-04-10T20:18:28.050

0 投票する

9 に答える

291936 参照

apache-spark - pyspark データフレームの列を削除する方法

2つid: bigintあり、1つを削除したいです。どのようにできるのか？

apache-spark apache-spark-sql pyspark

2015-04-13T08:10:33.347

0 投票する

1 に答える

1398 参照

python - Spark と Kafka での Python マルチプロセッシングの使用

1 つはランダムログを生成し、kafka プロデューサーにフィードし、もう 1 つは kafka トピックを使用して Spark Streaming でデータのストリームを作成します。

残念ながら、スクリプトを実行すると、KafkaUtils.createStream に関連するエラーが発生します...

これが私の端末の表示です：

私の2つの機能：

ご協力いただきありがとうございます！

python python-2.7 apache-kafka spark-streaming pyspark

2015-04-13T11:05:06.297

0 投票する

1 に答える

617 参照

apache-spark - Spark MLlib パッケージ NaN の重み

テスト機械学習データセットを使用して、pyspark で Spark MLlib パッケージを実行しようとしています。データセットを半分のトレーニングデータセットと半分のテストデータセットに分割しています。以下は、モデルを構築する私のコードです。ただし、すべての従属変数にわたる NaN、NaN.. の重みを示しています。理由がわかりませんでした。しかし、StandardScaler 関数を使用してデータを標準化しようとすると機能します。

助けてくれてありがとう。

以下は、スケーリングを行うために使用したコードです。

apache-spark machine-learning pyspark apache-spark-mllib

2015-04-16T17:48:46.410

1 2 3 4 5 6 7 8 9 10

問題タブ [pyspark]

apache-spark-sql - Spark で Row() を結合する

apache-spark - FlatMap 値とその列インデックス

numpy - pyspark を使用して s3 からストリーミング データを読み取る

apache-spark - pyspark データフレームの列を削除する方法

python - Spark と Kafka での Python マルチプロセッシングの使用

apache-spark - Spark MLlib パッケージ NaN の重み

Reference

numpy - pyspark を使用して s3 からストリーミングデータを読み取る