1

トピック モデリング (MALLET) を適用したい一連の非公式ドキュメント (数千) があります。問題は、文書内にかなりの数のスペルミスのある単語があることです。「juz」 -> 「just」、「alr」 -> 「already」のような短縮形や地元の専門用語など、ほとんどは意図的なものです。さまざまな著者の独特の文体のために、これらのバリエーションがいくつか存在します。

それらを MALLET にフィードした後、生成されたトピックの 1 つが実際には一連のスペルミスのストップワードであることが気になりました。これらの単語は、主に同じ著者のドキュメントの小さなサブセットで使用されていると思われるため、MALLET がそれを取り上げました。

私の質問は、これらの一連のスペルミスのある単語をスペルチェックして修正し、おそらく修正したテキストをどこかに保存してから、さらにタスクを実行するかということです。これは、コミットする前に手動で修正を確認する必要があることを意味すると思いますか? これを行うための最も「効率的な」方法は何でしょうか?

それとも、これらのスペルミスのある単語を実際に無視しますか?

4

2 に答える 2

0

トピック モデリングの結果に対するスペル ミスの単語またはスペル ミスの単語の誤修正の影響を知らずに、それに答えることはできないと思います。ですから、もっと情報を提供できれば、それは良いことです。

ただし、少なくとも修正が明らかに元の作者の意図である場合は、それらを修正したいと思っていたでしょう。

于 2010-11-25T11:31:40.697 に答える
0

現在、ストップワードをどうしていますか?トピック モデリングを行っている場合は、それらを除外することは理にかなっています。もしそうなら、これらの用語も除外してみませんか?

[返信に応じて編集]

より原則的な方法で LDA 内のストップワードを処理することについて、いくつかの研究があります。心に浮かぶ 2 つの論文があります。

  1. 潜在的ディリクレ配分の項重み付けスキーム
  2. LDA の再考: なぜ事前確率が重要なのか。

[ 1 ] は、彼らが設定した予測タスクに明らかに役立つ用語重み付けスキームを使用しています。 [ 2 ] 単語分布に対して非対称事前分布を使用しているため、すべてのストップ ワードを含むいくつかのトピックが明らかになり、他の単語は一般的です。コーパス全体に。

LDA でストップ ワードやその他の非トピック ワードを自動的に推測する最良の方法は、まだ研究課題のように思えます。

于 2010-11-25T14:34:21.590 に答える