nlp - テキストマイニングタスクで文書内のスペルミスの単語を処理する方法

Question

トピックモデリング (MALLET) を適用したい一連の非公式ドキュメント (数千) があります。問題は、文書内にかなりの数のスペルミスのある単語があることです。「juz」 -> 「just」、「alr」 -> 「already」のような短縮形や地元の専門用語など、ほとんどは意図的なものです。さまざまな著者の独特の文体のために、これらのバリエーションがいくつか存在します。

それらを MALLET にフィードした後、生成されたトピックの 1 つが実際には一連のスペルミスのストップワードであることが気になりました。これらの単語は、主に同じ著者のドキュメントの小さなサブセットで使用されていると思われるため、MALLET がそれを取り上げました。

私の質問は、これらの一連のスペルミスのある単語をスペルチェックして修正し、おそらく修正したテキストをどこかに保存してから、さらにタスクを実行するかということです。これは、コミットする前に手動で修正を確認する必要があることを意味すると思いますか? これを行うための最も「効率的な」方法は何でしょうか?

それとも、これらのスペルミスのある単語を実際に無視しますか?

score 0 · Accepted Answer

トピックモデリングの結果に対するスペルミスの単語またはスペルミスの単語の誤修正の影響を知らずに、それに答えることはできないと思います。ですから、もっと情報を提供できれば、それは良いことです。

ただし、少なくとも修正が明らかに元の作者の意図である場合は、それらを修正したいと思っていたでしょう。

score 0 · Accepted Answer

現在、ストップワードをどうしていますか？トピックモデリングを行っている場合は、それらを除外することは理にかなっています。もしそうなら、これらの用語も除外してみませんか?

[返信に応じて編集]

より原則的な方法で LDA 内のストップワードを処理することについて、いくつかの研究があります。心に浮かぶ 2 つの論文があります。

[ 1 ] は、彼らが設定した予測タスクに明らかに役立つ用語重み付けスキームを使用しています。 [ 2 ] 単語分布に対して非対称事前分布を使用しているため、すべてのストップワードを含むいくつかのトピックが明らかになり、他の単語は一般的です。コーパス全体に。

LDA でストップワードやその他の非トピックワードを自動的に推測する最良の方法は、まだ研究課題のように思えます。

nlp - テキスト マイニング タスクで文書内のスペル ミスの単語を処理する方法

2 に答える 2

Related

Reference

nlp - テキストマイニングタスクで文書内のスペルミスの単語を処理する方法