非常に単純なテキスト解析と関数型プログラミング機能のために python を活用したいと思います。また、numpy や scipy などの科学計算ライブラリの豊富な機能を活用したいと考えているため、タスクに pyspark を使用したいと考えています。
最初に実行しようとしているタスクは、ストリームの一部として書き込まれているテキスト ファイルがあるバケットから読み取ることです。誰かが pyspark を使用して s3 パスからストリーミング データを読み取る方法のコード スニペットを貼り付けることができますか? これは最近まで scala と java を使用してのみ実行できると思っていましたが、今日、spark 1.2 以降、ストリーミングが pyspark でもサポートされていることを知りましたが、S3 ストリーミングがサポートされているかどうかは不明です?
私がscalaで行っていた方法は、HadoopTextFileとして読み込んで、構成パラメーターを使用してawsキーとシークレットを設定することです。pysparkで同様のことを行うにはどうすればよいですか?
どんな助けでも大歓迎です。
前もって感謝します。