ドキュメントを読み込んでから、すべての単語をハッシュ削除の繰り返しに入れ、その単語の頻度を追加するプログラムがあります。
たとえば、次のようになります。
キー: 値: 犬 2 猫 4 ネズミ 1
ここで、各単語のランクを計算し、それらの統計を出力する必要があると言われました。これは正確にはどういう意味ですか?どのタイプの数学を見る必要がありますか? 単語ランクについて説明しているドキュメントを誰かが教えてくれたら助かります。
ありがとう
ドキュメントを読み込んでから、すべての単語をハッシュ削除の繰り返しに入れ、その単語の頻度を追加するプログラムがあります。
たとえば、次のようになります。
キー: 値: 犬 2 猫 4 ネズミ 1
ここで、各単語のランクを計算し、それらの統計を出力する必要があると言われました。これは正確にはどういう意味ですか?どのタイプの数学を見る必要がありますか? 単語ランクについて説明しているドキュメントを誰かが教えてくれたら助かります。
ありがとう
リピートを削除すると、「頻度」がなくなるか、少なくともすべてが最大1になるため、そうしないでください。繰り返しの数をマージすることについて話している場合(私はあなたがそうだと思います)、あなたが参照しているランクは、ファイル内の各単語の出現回数であると想定する必要があります。
適切にマージしている場合は、キーと値のペアを持つ配列があり、ランクの降順で値を並べ替えます。
ところで-これは宿題の質問のように聞こえます-もしそうなら-値で配列をソートするためのクイックソートを探してください。それは私が言うことはなおさらです。HTH。
ランキングとは、最も頻繁に使用される単語のランクが 1 になるように単純に順序付けすることです。適切な大きさのコーパスでの頻度ランクに関して、単語がどのように振る舞うと予想されるかについては、 Zipf の法則を見てください。