machine-learning - トピックモデリングノイズを除去するにはどうすればよいですか?

Question

私はトピックモデリングに取り組んでおり、ストップワードを削除した後、指定されたテキストコーパスにサポートワードの形で多くのノイズが含まれています。これらの単語は用語の頻度が高いですが、有用な頻度の高い他の単語と一緒に LDA を使用してトピック用語を形成するのには役立ちません。このノイズはどのように除去できますか？

score 1 · Accepted Answer

基本的なことは、TF-IDF を実行してスコアをきれいにすることです。それでも解決しない場合は、ドメイン固有のカスタムストップワードリストを作成できます。私がジョブドメインにいる場合、「ジョブ」という単語は通常のストップワードではありませんが、ジョブドメインではそうであるか、多くのドキュメントで繰り返されるため、会社名がストップワードであるとします。そのため、カスタムストップワードリストを作成することも別の方法です。

score 1 · Accepted Answer

LDA アルゴリズムは入力で tf-idf の重みを取りませんが、単語のバッグを受け取りますが、最初に tf-idf スコアに基づいてコーパスから単語をフィルター処理し、次に新しいテキストを LDA プログラムにフィードすることができます。

machine-learning - トピック モデリング ノイズを除去するにはどうすればよいですか?

2 に答える 2

Related

Reference

machine-learning - トピックモデリングノイズを除去するにはどうすればよいですか?