問題タブ [rdd]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

3893 問題

0 投票する

2 に答える

48046 参照

apache-spark - DAG は RDD の内部でどのように機能しますか?

Sparkの研究論文は、従来の Hadoop MapReduce に代わる新しい分散プログラミングモデルを規定しており、多くの場合、特に機械学習での簡素化と大幅なパフォーマンスの向上を主張しています。しかし、この論文では、internal mechanicsオンResilient Distributed Datasetsを明らかにするための資料が不足しているようです。Directed Acyclic Graph

ソースコードを調べて学ぶべきでしょうか？

2014-09-14T17:59:36.190

0 投票する

3 に答える

26911 参照

python - RDDから重複値を削除する方法[PYSPARK]

RDDとして次のテーブルがあります。

からすべての重複を削除したいValue。

出力は次のようになります。

pyspark で作業している間、出力は次のようなキーと値のペアのリストとして表示されます。

forここでループを適用する方法がわかりません。通常の Python プログラムでは、非常に簡単でした。

同じ機能があるのだろうかpyspark。

python apache-spark rdd

2014-09-18T06:23:01.917

0 投票する

2 に答える

24412 参照

scala - Sparkで別のRDDに基づく関数に従ってRDDをフィルタリングする方法は?

私は Apache Spark の初心者です。重みの合計が RDD の定数値より大きいすべてのグループを除外したいと考えています。「重み」マップも RDD です。これは小さなサイズのデモです。フィルタリングするグループは「groups」に格納され、定数値は 12 です。

入力データが非常に大きい場合 (たとえば、10 GB を超える場合)、常に「Java ヒープがメモリ不足です」というエラーが発生します。分散RDDをJVMのJavaオブジェクトに変換するため、「weights.toArray.toMap」が原因かどうか疑問に思いました。だから私はRDDで直接フィルタリングしようとしました:

このスクリプトを Spark シェルにロードした後に実行するとresult.collect、「java.lang.NullPointerException」エラーが発生しました。RDD が別の RDD で操作されると、nullpointer 例外が発生するので、Redis に重みを入れることを提案する人がいます。

では、「重み」をマップに変換したり、Redis に入れたりせずに「結果」を取得するにはどうすればよいでしょうか? 外部データストアサービスの助けを借りずに、別のマップのような RDD に基づいて RDD をフィルター処理するソリューションがある場合は? ありがとう！

scala map apache-spark rdd

2014-09-25T09:52:47.120

0 投票する

1 に答える

724 参照

apache-spark - マップ部分で作成されたキーの数を見つける方法は?

関数で作成されたキーの数を見つける Spark アプリケーションを作成しようとしていmapます。それを可能にする機能が見つかりませんでした。

私が考えた 1 つの方法は、reduce関数のアキュムレータ変数に 1 を追加するアキュムレータを使用することです。私の考えは、アキュムレータ変数がノード間でカウンターとして共有されるという仮定に基づいています。

ガイドしてください。

apache-spark rdd

2014-09-30T05:50:21.567

0 投票する

3 に答える

49060 参照

python - Spark で単純な 1 行の文字列を RDD に変換する

私は簡単な行を持っています:

要素が1つだけのRDDに変換したいと思います。私が試してみました

しかし、次のようになります。

何か案は？

python apache-spark pyspark distributed-computing rdd

2014-10-02T09:07:14.783

0 投票する

1 に答える

4685 参照

hadoop - 細粒度変換と粗粒度変換

Spark のコンテキストでの細粒度変換と粗粒度変換の違いを誰か説明してもらえますか? 私は RDD に関する論文 ( https://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf ) を読んでいましたが、粗いゲイン変換が効果的な方法でフォールトトレランスを提供する方法がよくわかりませんでした。

hadoop apache-spark rdd

2014-10-04T17:51:16.123

1 2 3 4 5 6 7 8 9 10

問題タブ [rdd]

apache-spark - DAG は RDD の内部でどのように機能しますか?

python - RDDから重複値を削除する方法[PYSPARK]

scala - Sparkで別のRDDに基づく関数に従ってRDDをフィルタリングする方法は?

apache-spark - マップ部分で作成されたキーの数を見つける方法は?

python - Spark で単純な 1 行の文字列を RDD に変換する

hadoop - 細粒度変換と粗粒度変換

Reference