python - nltkを使用したidfの実装

Question

「速い茶色のキツネが怠惰な犬を飛び越えた」という文を与えられて、私は各単語がnltkコーパス（コーパスが最も一般的/包括的である方）からどれくらいの頻度であるかのスコアを取得したいと思います

編集：

この質問は、この質問に関連しています。@adi92がidfの手法を使用して単語の「希少性」を計算することを提案した文からのpythonnltkキーワードの抽出。これが実際にどのように見えるかを見たいと思います。ここでのより広い問題は、英語での単語の使用の希少性をどのように計算するかです。これを解決するのは難しい問題だと思いますが、それでもnltk idf（brownやreutersコーパスのようなものを使用）は私たちをそこへの道の一部にするかもしれませんか？

score 1 · Accepted Answer

単語の頻度を知りたい場合は、単語の頻度の表が必要です。単語はテキストのジャンルによって頻度が異なるため、最適な頻度テーブルはドメイン固有のコーパスに基づく場合があります。

いじり回しているだけなら、コーパスを無作為に選んで単語を数えるのは簡単です<corpus>.words()-- とnltk を使用するFreqDistか、詳細については NLTK の本を参照してください。

ただし、真剣に使用する場合は、自分で単語を数えないでください。特定のドメインに興味がない場合は、大きな単語頻度表を取得してください。そこには膨大な数のデータがあり (コーパスの作成者が最初に考えることは明らかです)、最大のものはおそらく google によってコンパイルされた「1 グラム」テーブルです。http://books.google.com/ngrams/datasetsでダウンロードできます。

python - nltkを使用したidfの実装

1 に答える 1

Related

Reference