私は約1500語の辞書を持っています。これらの1500語すべてをテキストのトピックとして使用できるわけではありませんが(辞書ではそれらの多くはノイズであり、おそらくトピックとして使用できるのはそのうちの2〜10%のみです)、ドキュメントに提供したいトピックは次のようになります。それらの1500語の中で見つかりました。
したがって、どこから始めればよいのでしょうか。また、どのアルゴリズムが機能するのでしょうか。ありがとう!
私は約1500語の辞書を持っています。これらの1500語すべてをテキストのトピックとして使用できるわけではありませんが(辞書ではそれらの多くはノイズであり、おそらくトピックとして使用できるのはそのうちの2〜10%のみです)、ドキュメントに提供したいトピックは次のようになります。それらの1500語の中で見つかりました。
したがって、どこから始めればよいのでしょうか。また、どのアルゴリズムが機能するのでしょうか。ありがとう!
人々によって割り当てられた各トピックがそれらのドキュメントに表示された回数を数えることができます. 単語の形態的バリエーションを考慮するには、ステマーまたはレンマタイザー (たとえば、Java のスタンフォード PoS タガーまたは Python の NLTK) を使用できます。次に、ドキュメント セット全体のカウントに基づいて最も有用なトピックを選択するか、tf-idf (http://en.wikipedia.org/wiki/Tf%E2%80%93idf - ページの下部) を使用します。ページには、いくつかの実装へのリンクがあります)。