私は大規模なプロジェクトに取り組んでいます。わざわざここで要約するつもりはありませんが、プロジェクトのこのセクションでは、非常に大きなテキスト ドキュメント (最小で約 50,000 語 (一意ではない)) を取得し、それぞれの一意のテキストを出力します。最も使用されている単語から最も使用されていない単語の順に並べます (おそらく、上位 3 つは「a」、「an」、および「the」になります)。
もちろん、私の質問は、使用するのに最適な並べ替えアルゴリズムは何ですか? 私はソートのカウントを読んでいましたが、それは気に入っていますが、一意の単語の数に比べて値の範囲が大きすぎることが懸念されます。
助言がありますか?