0

私はトピック モデリングに取り組んでおり、ストップ ワードを削除した後、指定されたテキスト コーパスにサポート ワードの形で多くのノイズが含まれています。これらの単語は用語の頻度が高いですが、有用な頻度の高い他の単語と一緒に LDA を使用してトピック用語を形成するのには役立ちません。このノイズはどのように除去できますか?

4

2 に答える 2

1

基本的なことは、TF-IDF を実行してスコアをきれいにすることです。それでも解決しない場合は、ドメイン固有のカスタム ストップワード リストを作成できます。私がジョブドメインにいる場合、「ジョブ」という単語は通常のストップワードではありませんが、ジョブドメインではそうであるか、多くのドキュメントで繰り返されるため、会社名がストップワードであるとします。そのため、カスタム ストップワード リストを作成することも別の方法です。

于 2015-04-24T19:11:40.040 に答える
1

LDA アルゴリズムは入力で tf-idf の重みを取りませんが、単語のバッグを受け取りますが、最初に tf-idf スコアに基づいてコーパスから単語をフィルター処理し、次に新しいテキストを LDA プログラムにフィードすることができます。

于 2015-04-21T08:07:26.397 に答える