問題タブ [rdd]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - Spark RDDで要素の範囲を選択するにはどうすればよいですか?
Spark RDD で要素の範囲を選択したいと思います。たとえば、100 個の要素を持つ RDD があり、60 から 80 までの要素を選択する必要があります。
RDD には、最初の i 要素を返す take(i: int) メソッドがあることがわかります。しかし、最後の i 要素、または特定のインデックスから始まる途中から i 要素を取得する対応するメソッドはありません。
scala - Spark で RDD を保持する一時変数
これを可能な限り短い文で説明する方法がよくわかりませんが、とにかく試してみます。dataという変数に、この形式の RDD があるとします。
b と c は、前の RDD 変換の結果の配列です。特定の条件に基づいて、RDD を変換して、b または c から 1 列のみを取得したいと考えています。RDD を格納するための一時変数の宣言に問題があります。
if文内でvalを使って new_data を宣言すると、if 文の範囲外になります。var を使用してみましたが、初期化する方法がわかりません。タイプMappedRDDおよびRDDのvarを使用してみましたが、マップ操作の値をそれに割り当てることができないようです。
scala - scalaでパラメーターを渡すことの理解における混乱
groupBy
Spark の RDD の2 つのメソッドは、次のように宣言されています。
関数 f を次のように定義します。
としてf
最初に渡すことができました。groupBy
rdd.groupBy(f)
f
なぜ私は2番目のgroupBy
ように渡すことができなかったのrdd.groupBy(f, 10)
ですか? rdd.groupBy(f(_), 10)
またはを使用する必要がありrdd.groupBy(x => f(x), 10)
ます。
scala - Spark - scala: RDD をシャッフルする / RDD を 2 つのランダムな部分にランダムに分割する
スパークの rdd 配列を取得し、それをランダムに 2 つの rdd に分割して、各 rdd にデータの一部が含まれるようにするにはどうすればよいですか (97% と 3% としましょう)。
リストをシャッフルしてからshuffledList.take((0.97*rddList.count).toInt)
しかし、どうすればrddをシャッフルできますか?
または、リストを分割するより良い方法はありますか?
mysql - Apache Spark スキーマ出力を mysql データベースに保存する方法
JavaRDDをmysqlデータベースに保存する方法がapache sparkにあるかどうか誰か教えてください。2 つの csv ファイルから入力を取得し、その内容に対して結合操作を行った後、出力 (出力 JavaRDD) を mysql データベースに保存する必要があります。出力を hdfs に正常に保存できましたが、Apache Spark-MYSQL 接続に関連する情報が見つかりません。以下に、spark sql のコードを掲載しています。これは、spark-sql の例を探している人の参考になるかもしれません。
最後に、結果を HDFS に正常に保存しています。しかし、今は MYSQL データベースに保存したいと思っています。親切に私を助けてください。ありがとう
classification - Apache Spark RDD マップ内でのバッチ処理
作業するバッチを指定すると、基になる関数が大幅に効率的に動作する状況があります。次のような既存のコードがあります。
このclassify
方法は単一の要素に対して機能しますが、要素のグループに対してより効率的に操作できます。coalesce
RDD をチャンクに分割し、各チャンクをグループとして処理することを検討しましたが、これには 2 つの問題があります。
- マップされた RDD を返す方法がわかりません。
classify
グループの大きさは事前にわからず、入力の内容によって異なります。
理想的な状況で呼び出す方法のサンプル コードclassify
(非常に大きな入力に対してスピルできないため、出力はぎこちなくなります):
この方法でclassifyInBatches
は、内部的に次のようなコードを使用できます。
このような動作を許可する Apache Spark で何ができますか?
scala - Spark 内の Scala で再帰的な Union を使用して RDD を構築する
だから私は関数型プログラミングとSparkとScalaにかなり慣れていないので、これが明らかな場合は許してください...しかし、基本的に、特定の基準を満たすHDFS全体のファイルのリストがあります。
このリストから使用するRDDを作成する必要があります...私の考えは、再帰的なUnionを使用することでした...基本的には次のような関数です:
次に、マップを介して単純に適用します。
hbase - spark を使用して hbase から読み取る方法
以下のコードは hbase から読み取り、それを json 構造に変換し、 schemaRDD に変換しますが、問題はusing List
、json 文字列を保存してから javaRDD に渡すことです。約 100 GB のデータがマスターにロードされますメモリ内のデータ。hbaseからデータをロードして操作を実行し、JavaRDDに変換する正しい方法は何ですか?