問題タブ [rdd]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
scala - Spark 処理列の並列処理
私は Spark で遊んでいましたが、なんとかデータをクランチすることができました。私のデータは、50 列と約 2000 万行からなるフラット区切りのテキスト ファイルで構成されています。各列を処理するスカラ スクリプトがあります。
並列処理に関しては、RDD 操作が複数のノードで実行されることを知っています。したがって、列を処理するたびに、それらは並行して処理されますが、列自体は順次処理されます。
簡単な例: 私のデータが 5 列のテキスト区切りファイルで、各列にテキストが含まれていて、各列の単語数をカウントしたい場合。私はするだろう:
各列の操作は並行して実行されますが、列自体は順次処理されます (悪い言い回しです。申し訳ありません!)。つまり、列 1 が完了した後に列 2 が処理されます。列 3 は、列 1 と 2 が完了した後に処理されます。
私の質問は、一度に複数の列を処理する方法はありますか? チュートリアルなどの方法をご存知でしたら、私と共有していただけませんか?
ありがとうございました!!
apache-spark - 2つのスキーマRDDで結合操作を実行するには?
2 つの SchemaRDD があり、それらに対して結合操作を実行したい (SQL 結合と同じ)。私を助けてください。
scala - Spark のフィルター機能
Spark の scala で次のコードを記述しました。
(inactiveIDs はRDD[(Int, Seq[String])]
、persons は 、Broadcast[RDD[(Int, Seq[Event])]]
Event は私が作成したクラスです)
そして次のエラー:
何か案は?
python - Python の Spark RDD で foreach を使用する
クラスターで実行されている非常に大きな RDD を取得して、.csv に書き込もうとしています。.collect() が壊れるほど大きいので、代わりに各ノードで RDD を分割して保存し、順序は問題にならないので、どうにかしてそれらをまとめたいと思います。私の考えでは、CSV プリンター関数で foreach を使用して、各パーツがその値を書き込むようにし、おそらく FTP を使用してパーツを手動で収集できるようにします。
私はある程度の経験を持つ Spark ユーザーですが、これまで RDD の foreach メソッドを有用なものにすることはできませんでした。ドキュメントに記載されている例を実行しようとすると、
コンソールには何も返されません。これは、コンソールが配置されている名前ノードではなく、個別のノードで「印刷」が実行されているためだと思います。ただし、その場合、 foreach 関数にはあまり意味がありません。
最初に collect() 関数を呼び出さずに、for each の結果を名前ノードに戻すにはどうすればよいですか?
注意。私は saveAsTextFile() RDD 関数を使用することにもオープンですが、これも機能させることができませんでした! テキストファイルではなくフォルダを作成しているように見えますが、これはおそらく、それらが中央ではなく各ノードにも存在するためでしょうか?
apache-spark - DStreams で SparkSQL を実行すると、org.apache.spark.rdd.ShuffledRDDPartition で ClassCastException が発生するのはなぜですか?
DStream の各 RDD で SparkSQL を実行すると、ClassCastException が発生します。