machine-learning - トピック単語の辞書でノイズを検出する

Question

私は約1500語の辞書を持っています。これらの1500語すべてをテキストのトピックとして使用できるわけではありませんが（辞書ではそれらの多くはノイズであり、おそらくトピックとして使用できるのはそのうちの2〜10％のみです）、ドキュメントに提供したいトピックは次のようになります。それらの1500語の中で見つかりました。

したがって、どこから始めればよいのでしょうか。また、どのアルゴリズムが機能するのでしょうか。ありがとう！

score 0 · Accepted Answer

人々によって割り当てられた各トピックがそれらのドキュメントに表示された回数を数えることができます. 単語の形態的バリエーションを考慮するには、ステマーまたはレンマタイザー (たとえば、Java のスタンフォード PoS タガーまたは Python の NLTK) を使用できます。次に、ドキュメントセット全体のカウントに基づいて最も有用なトピックを選択するか、tf-idf (http://en.wikipedia.org/wiki/Tf%E2%80%93idf - ページの下部) を使用します。ページには、いくつかの実装へのリンクがあります)。

machine-learning - トピック単語の辞書でノイズを検出する

1 に答える 1

Related

Reference