ドキュメントがあり、ドキュメントが 4 台の異なるマシンに分散しているとします。繰り返し回数が最も多い (4 台のマシンすべてを組み合わせた) 文字を取得したいと考えています。
私が持っている 1 つのアプローチは、各マシンでハッシュマップを使用し、各マシンの頻度を個別に計算してから、そのハッシュマップをメイン サーバーに渡し、4 台のマシンすべてからのハッシュマップをマージすることです。したがって、頻度が最も高い文字を取得します。
しかし、ここでのキャッシュは、各マシンから転送されるデータを最小限に抑えたいということです。
どのような改善を行うことができますか?
[編集]
各マシンはドキュメントの一部を保持します