問題タブ [rdd]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
4 に答える
42006 参照

apache-spark - Spark RDDで要素の範囲を選択するにはどうすればよいですか?

Spark RDD で要素の範囲を選択したいと思います。たとえば、100 個の要素を持つ RDD があり、60 から 80 までの要素を選択する必要があります。

RDD には、最初の i 要素を返す take(i: int) メソッドがあることがわかります。しかし、最後の i 要素、または特定のインデックスから始まる途中から i 要素を取得する対応するメソッドはありません。

0 投票する
1 に答える
2538 参照

scala - Spark で RDD を保持する一時変数

これを可能な限り短い文で説明する方法がよくわかりませんが、とにかく試してみます。dataという変数に、この形式の RDD があるとします。

b と c は、前の RDD 変換の結果の配列です。特定の条件に基づいて、RDD を変換して、b または c から 1 列のみを取得したいと考えています。RDD を格納するための一時変数の宣言に問題があります。

if文内でvalを使って new_data を宣言すると、if 文の範囲外になります。var を使用してみましたが、初期化する方法がわかりません。タイプMappedRDDおよびRDDのvarを使用してみましたが、マップ操作の値をそれに割り当てることができないようです。

0 投票する
1 に答える
755 参照

scala - scalaでパラメーターを渡すことの理解における混乱

groupBySpark の RDD の2 つのメソッドは、次のように宣言されています。

関数 f を次のように定義します。

としてf最初に渡すことができました。groupByrdd.groupBy(f)

fなぜ私は2番目のgroupByように渡すことができなかったのrdd.groupBy(f, 10)ですか? rdd.groupBy(f(_), 10)またはを使用する必要がありrdd.groupBy(x => f(x), 10)ます。

0 投票する
2 に答える
11153 参照

scala - Spark - scala: RDD をシャッフルする / RDD を 2 つのランダムな部分にランダムに分割する

スパークの rdd 配列を取得し、それをランダムに 2 つの rdd に分割して、各 rdd にデータの一部が含まれるようにするにはどうすればよいですか (97% と 3% としましょう)。

リストをシャッフルしてからshuffledList.take((0.97*rddList.count).toInt)

しかし、どうすればrddをシャッフルできますか?

または、リストを分割するより良い方法はありますか?

0 投票する
2 に答える
4875 参照

mysql - Apache Spark スキーマ出力を mysql データベースに保存する方法

JavaRDDをmysqlデータベースに保存する方法がapache sparkにあるかどうか誰か教えてください。2 つの csv ファイルから入力を取得し、その内容に対して結合操作を行った後、出力 (出力 JavaRDD) を mysql データベースに保存する必要があります。出力を hdfs に正常に保存できましたが、Apache Spark-MYSQL 接続に関連する情報が見つかりません。以下に、spark sql のコードを掲載しています。これは、spark-sql の例を探している人の参考になるかもしれません。

最後に、結果を HDFS に正常に保存しています。しかし、今は MYSQL データベースに保存したいと思っています。親切に私を助けてください。ありがとう

0 投票する
1 に答える
1191 参照

classification - Apache Spark RDD マップ内でのバッチ処理

作業するバッチを指定すると、基になる関数が大幅に効率的に動作する状況があります。次のような既存のコードがあります。

このclassify方法は単一の要素に対して機能しますが、要素のグループに対してより効率的に操作できます。coalesceRDD をチャンクに分割し、各チャンクをグループとして処理することを検討しましたが、これには 2 つの問題があります。

  1. マップされた RDD を返す方法がわかりません。
  2. classifyグループの大きさは事前にわからず、入力の内容によって異なります。

理想的な状況で呼び出す方法のサンプル コードclassify(非常に大きな入力に対してスピルできないため、出力はぎこちなくなります):

この方法でclassifyInBatchesは、内部的に次のようなコードを使用できます。

このような動作を許可する Apache Spark で何ができますか?

0 投票する
1 に答える
1162 参照

scala - Spark 内の Scala で再帰的な Union を使用して RDD を構築する

だから私は関数型プログラミングとSparkとScalaにかなり慣れていないので、これが明らかな場合は許してください...しかし、基本的に、特定の基準を満たすHDFS全体のファイルのリストがあります。

このリストから使用するRDDを作成する必要があります...私の考えは、再帰的なUnionを使用することでした...基本的には次のような関数です:

次に、マップを介して単純に適用します。

0 投票する
4 に答える
81661 参照

hbase - spark を使用して hbase から読み取る方法

以下のコードは hbase から読み取り、それを json 構造に変換し、 schemaRDD に変換しますが、問題はusing List、json 文字列を保存してから javaRDD に渡すことです。約 100 GB のデータがマスターにロードされますメモリ内のデータ。hbaseからデータをロードして操作を実行し、JavaRDDに変換する正しい方法は何ですか?