1

ブログのコンテンツをマイニングするプロジェクトを行っていますが、使用するツールを区別するのに助けが必要です。いつパーサーを使用し、いつタガーを使用し、いつ NER ツールを使用する必要がありますか?

たとえば、いくつかのブログ間で最も話題になっているトピック/主題を見つけたいと考えています。品詞タガーを使用して名詞を取得し、頻度をカウントする必要がありますか? 非常に一般的な用語がポップアップする可能性があるため、それはおそらく不十分でしょうか? または、一致できるカテゴリとこれらの同義語のリストはありますか?

ところで、私は nltk を使用していますが、数人の男が良いと言っていたので、スタンフォード タガーまたはパーサーを見ています。

4

1 に答える 1

3

車輪の再発明を試みる代わりに、基本的に一緒に頻繁に発生する単語のクラスターを作成するトピック モデルを読みたいと思うかもしれません。Mallet には、このようなタスクを実行するためのすぐに利用できるツールキットがあります: http://mallet.cs.umass.edu/topics.php

元の質問に答えるために、POS タガー、パーサー、および NER ツールは通常、トピックの識別には使用されませんが、ドキュメント内で特定のアクター、イベント、場所、時間を識別することが目標である情報抽出などのタスクに頻繁に使用されます。など... たとえば、「ジョンがメアリーにリンゴをあげた」のような簡単な文があるとします。依存関係パーサーを使用して、John が主語、りんごが目的語、Mary が前置詞目的語であることを確認できます。したがって、ジョンが与える側であり、メアリーが受け取る側であり、その逆ではないことがわかります。

于 2010-08-09T07:29:33.230 に答える