ブログのコンテンツをマイニングするプロジェクトを行っていますが、使用するツールを区別するのに助けが必要です。いつパーサーを使用し、いつタガーを使用し、いつ NER ツールを使用する必要がありますか?
たとえば、いくつかのブログ間で最も話題になっているトピック/主題を見つけたいと考えています。品詞タガーを使用して名詞を取得し、頻度をカウントする必要がありますか? 非常に一般的な用語がポップアップする可能性があるため、それはおそらく不十分でしょうか? または、一致できるカテゴリとこれらの同義語のリストはありますか?
ところで、私は nltk を使用していますが、数人の男が良いと言っていたので、スタンフォード タガーまたはパーサーを見ています。