「速い茶色のキツネが怠惰な犬を飛び越えた」という文を与えられて、私は各単語がnltkコーパス(コーパスが最も一般的/包括的である方)からどれくらいの頻度であるかのスコアを取得したいと思います
編集:
この質問は、この質問に関連しています。@adi92がidfの手法を使用して単語の「希少性」を計算することを提案した文からのpythonnltkキーワードの抽出。これが実際にどのように見えるかを見たいと思います。ここでのより広い問題は、英語での単語の使用の希少性をどのように計算するかです。これを解決するのは難しい問題だと思いますが、それでもnltk idf(brownやreutersコーパスのようなものを使用)は私たちをそこへの道の一部にするかもしれませんか?