問題タブ [partitioner]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
scala - S3 パスの RDD 用のカスタム Spark パーティショナー
サイズのRDD[(Long, String)]
S3 パス (バケット + キー) があります。各パーティションのサイズの合計がほぼ同じ値になるパスを取得するように、パーティションを分割したいと考えています。そうすれば、これらのパスのコンテンツを読み取るときに、各パーティションで処理するデータ量がほぼ同じになるはずです。そのために、このカスタム パーティショナーを作成しました。
パーティショナーは、キー (サイズ) が降順で並べ替えられた RDD が供給された場合に最適なパフォーマンスを発揮するはずです。使用しようとすると、以前は機能していたコードで次のエラーが発生し始めました。
これは私がそれを使用している方法です:
そして、これを修正する方法がわかりません。助けていただければ幸いです。
apache-spark - Spark: RDD からパーティショナーを削除するにはどうすればよいですか?
キーに基づいてRDDをグループ化しています。
デフォルトでは、SparkHashPartitioner
がこの RDD に関連付けられていることがわかります。これは、1 つのエグゼキューターに同様のデータをもたらすためにある種のパーティショナーが必要であることに同意するため、私には問題ありません。しかし、プログラムの後半で、RDD にパーティショナー戦略を忘れさせたいと思います。これは、別のパーティション戦略に従う別の RDD と結合したいからです。RDD からパーティショナーを削除するにはどうすればよいですか?
apache-spark - 範囲外の配列の例外を与えるスパークのパーティションおよびカスタムパーティショナー内での再パーティション化およびソート
6ここで説明されていることを実装しようとしました。カスタムパーティションのパーティション数を1に保つと機能しますが、これを変更すると他の値を保持すると、範囲外の配列例外が発生します
このエラーの原因を突き止めることができません。
前もって感謝します
mapreduce - Hadoop Map Reduce - レデューサーの数
異なる年齢層の会社の従業員のデータを持つユースケースがあります。3 つの年齢グループ カテゴリの男性従業員と女性従業員の最高給与を見つける必要があります。
詳細については、以下のリンクにアクセスしてください -
http://www.myhadoopexamples.com/2014/03/01/hadoop-mapreduce-example-with-partitioner/
私の質問は-ここでは、マッパーによって発行されたキーは2つだけです。つまり、男性と女性です。ドライバークラスに3つのレデューサーを設定したため、3つのパーティションが作成されます。
以下の2つのことがあります-
3つのパーティションごとに3つのレデューサーが実行され、各パーティションの女性と男性の最大給与が調べられます。上記のリンクに示すように、期待される結果が得られます。
男性用と女性用の減速機のみが実際に実行され、計算を行います
hadoop - コンバイナーとパーティショナーの違い
私は MapReduce の初心者で、パーティショナーとコンバイナーの違いがわかりません。どちらも map タスクと reduce タスクの間の中間ステップで実行され、reduce タスクによって処理されるデータ量が削減されることがわかっています。例を使って違いを説明してください。
hadoop - パーティショナー Hadoop で分散キャッシュを使用するには?
Hadoop と mapreduce パーティショナーは初めてです。独自のパーティショナーを作成したいのですが、パーティショナーでファイルを読み取る必要があります。私は何度も検索しましたが、分散キャッシュを使用する必要があることがわかりました。Hadoop パーティショナーで分散キャッシュを使用するにはどうすればよいですか? パーティショナーには何を書くべきですか?
ありがとう