キーベースのデータパーティションに最適なパーティションを取得するアルゴリズムがあるかどうかはわかりません (同じ結果データセットで同じキーレコードを確保する必要があります)。
例: データセットを 2 つの部分に分割する必要があります:</p>
key num_of_records
k1 20
k2 15
k3 2
k4 3
k5 5
2^5 種類の異なるパーティションがあります。そのような
part1: k1 k3 k4 (total records: 25)
part2: k2 k5 (total records 20)
そして別のパーティションは次のとおりです。
part1: k1 k4 (total records 23)
part2: k2 k3 k5 (total revords 22)
後者のパーティションは、前者よりも優れています。これは、レコード数を 2 つの部分により均等に分散できるためです。
したがって、最適なパーティションを見つけるためのアルゴリズムが必要です。
このトピックについて誰か提案してもらえますか? この問題にどのようにアプローチできますか?
ありがとう。