問題タブ [partitioner]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - Hadoopで単語数を値でソートする方法は?
こんにちは、hadoop で単語数を値でソートする方法を学びたいと思っていました。
値を並べ替えるには、partitioner、groupingcomparator、および sortcomparator が必要であることを知っています
しかし、これらの概念を一緒に適用して単語数を値でソートすることに少し混乱しています。
同じことを達成するために別のマップリデュースジョブが必要ですか、それともオカレンスをカウントしてここでソートし、同じものをリデューサーに出力するコンバイナーが必要ですか?
ワードカウントの例を値でソートする方法を説明できる人はいますか?
cassandra - Cassandra の複数のデータセンター構成で異なるパーティショナーを使用できますか?
datacenter1 のクラスターに RandomPartitioner を配置し、datacenter2 のクラスターに Murmur3Partitioner を配置することはできますか?
hadoop - Hadoop セカンダリ ソートで Key-Value を正しいリデューサーにルーティングする
3 つのレデューサーがあり、それぞれが同じキーを受け取る必要があります。次のようにします。
パーティショナーでは、getPartition() メソッドは、(0,1,2) のいずれかのレデューサーのインデックスを示す int を返す必要があります。
私が持っている getPartition() の実装は次のとおりです。
ただし、これはここでは機能していません。
だから私が得る出力ファイルで
問題は、これをどのように修正するかです。つまり、同じキーが同じリデューサーに送られることを保証するパーティショナー関数をどのように作成すればよいでしょうか。
hash - Cassandra のキーからのハッシュ値
Hector を使用して Cassandra のメカニズムを開発しています。現時点で必要なのは、キーのハッシュ値がどれであるかを知り、どのノードが格納されているかを調べ (それぞれのトークンを調べて)、このノードに値を直接問い合わせることです。私が理解したのは、Cassandra が使用するパーティショナーによっては、値がパーティショナーごとに個別に格納されるということです。では、すべてのキーのハッシュ値はどのテーブルに格納されているのでしょうか? そうでない場合、Cassandra を使用しているパーティショナーを System Keyspace から読み取ると、パーティショナーに応じてコードを変更する必要なく、このクラスのインスタンスになる汎用クラスをどのように実装できますか? 特定のキーのハッシュ値を計算するには、getToken メソッドを呼び出す必要があります。
get - Cassandra パーティショナーを入手する
Cassandra が使用しているパーティショナーを取得するために、Hector クライアントの次のコードを使用しています。
しかし失敗し、NullPointerException が返されます。私はcqlshでクエリを試してみましたが、うまくいきましたが、このコードを使用していません。誰が何が悪いのか知っていますか?
ありがとう!
hadoop - パーティショナーまたは MultipleOutputs
Partitioner と MultipleOutputs についてご意見をお聞かせください。
次のようなキーを含むファイルがあるとします
2 つのファイルが必要です。1 つは で始まるキーを含むファイル0:
で、もう1 つは で始まるキーを含むファイルです1:
。どのアプローチを使用する必要がありますか:
1) キーを解析し、getPartition() に対して 0 または 1 を返すカスタム パーティショナーを使用します。
2)キーを解析し、MultipleOutputs.write のパラメーター に対してorを指定することにより、reduce フェーズでMultipleOutputs.writeを使用します。zero
one
namedOutput
どちらの方がよいですか?私にとっては、レデューサーは単一のファイルを処理するため、1) の方が優れています。
hadoop - hadoop mapreduce パーティショナーが呼び出されない
カスタム パーティショナーが呼び出されません。何百万回もすべてをチェックしましたが、結果はありませんでした。少し前までは機能していましたが、なぜ現在機能していないのかわかりません。どんな助けでも大歓迎です。
コードを追加しています(非常に簡単なケースでは、入力としてのカスタムキーでも機能しません)。
マッパーは正しい値を 100% 出力し、パーティショナーはスキップされます。
事前にどうもありがとう、
アレックス
hadoop - 単一のレデューサーでもパーティショナーが呼び出されるのはなぜですか
単一のレデューサーでのみ実行するように構成された MR ジョブがある場合、パーティショナーを呼び出す必要がないのは当然のことです。
ただし、これを試してみたところ、ジョブが単一のレデューサーで構成されていても、パーティショナーが呼び出されているように見えます。
これが必要な理由はありますか?
java - 同じリデューサー関数に異なるキーを集める - HADOOP
少なくとも 1 つの整数を共有するキーのすべての値を同じレデューサー関数に収集したいと考えています。たとえば、キー「1,2」に対応するすべての値とキー「2,3」に対応するすべての値は、常に同じリデューサー関数にある必要があります。これらの 2 つのキーには整数 2 が含まれているためです。一般。
別の言い方をすれば、「キーの等しい条件」を別の条件に変更したいだけです。
これを行う方法はありますか?それは Partitioner クラスに関連していますか、それともまったく別のことをしなければなりませんか?
これが問題になる場合は、1.2.1 Hadoop バージョンを使用します。
前もって感謝します!
java - パーティショナー用の単一ファイルの出力
キーの数と同じ数のレデューサーを取得しようとしています
ドライバークラス
しかし、私は単一のファイルにootputを取得しています。
私は何か間違ったことをしていますか