numpy - pyspark を使用して s3 からストリーミングデータを読み取る

Question

非常に単純なテキスト解析と関数型プログラミング機能のために python を活用したいと思います。また、numpy や scipy などの科学計算ライブラリの豊富な機能を活用したいと考えているため、タスクに pyspark を使用したいと考えています。

最初に実行しようとしているタスクは、ストリームの一部として書き込まれているテキストファイルがあるバケットから読み取ることです。誰かが pyspark を使用して s3 パスからストリーミングデータを読み取る方法のコードスニペットを貼り付けることができますか? これは最近まで scala と java を使用してのみ実行できると思っていましたが、今日、spark 1.2 以降、ストリーミングが pyspark でもサポートされていることを知りましたが、S3 ストリーミングがサポートされているかどうかは不明です?

私がscalaで行っていた方法は、HadoopTextFileとして読み込んで、構成パラメーターを使用してawsキーとシークレットを設定することです。pysparkで同様のことを行うにはどうすればよいですか?

どんな助けでも大歓迎です。

前もって感謝します。

score 1 · Accepted Answer

ドキュメントの「基本的なソース」セクションを確認してください: https://spark.apache.org/docs/latest/streaming-programming-guide.html

私はあなたが何かを望んでいると信じています

from pyspark import SparkContext
from pyspark.streaming import StreamingContext

sc = SparkContext('local[2]', 'my_app')
ssc = StreamingContext(sc, 1)

stream = ssc.textFileStream('s3n://...')

numpy - pyspark を使用して s3 からストリーミング データを読み取る

1 に答える 1

Related

Reference

numpy - pyspark を使用して s3 からストリーミングデータを読み取る