1

「速い茶色のキツネが怠惰な犬を飛び越えた」という文を与えられて、私は各単語がnltkコーパス(コーパスが最も一般的/包括的である方)からどれくらいの頻度であるかのスコアを取得したいと思います

編集:

この質問は、この質問に関連しています。@adi92がidfの手法を使用して単語の「希少性」を計算することを提案した文からのpythonnltkキーワードの抽出。これが実際にどのように見えるかを見たいと思います。ここでのより広い問題は、英語での単語の使用の希少性をどのように計算するかです。これを解決するのは難しい問題だと思いますが、それでもnltk idf(brownやreutersコーパスのようなものを使用)は私たちをそこへの道の一部にするかもしれませんか?

4

1 に答える 1

1

単語の頻度を知りたい場合は、単語の頻度の表が必要です。単語はテキストのジャンルによって頻度が異なるため、最適な頻度テーブルはドメイン固有のコーパスに基づく場合があります

いじり回しているだけなら、コーパスを無作為に選んで単語を数えるのは簡単です<corpus>.words()-- とnltk を使用するFreqDistか、詳細については NLTK の本を参照してください。

ただし、真剣に使用する場合は、自分で単語を数えないでください。特定のドメインに興味がない場合は、大きな単語頻度表を取得してください。そこには膨大な数のデータがあり (コーパスの作成者が最初に考えることは明らかです)、最大のものはおそらく google によってコンパイルされた「1 グラム」テーブルです。http://books.google.com/ngrams/datasetsでダウンロードできます。

于 2012-07-18T20:49:17.583 に答える