トピック モデリング (MALLET) を適用したい一連の非公式ドキュメント (数千) があります。問題は、文書内にかなりの数のスペルミスのある単語があることです。「juz」 -> 「just」、「alr」 -> 「already」のような短縮形や地元の専門用語など、ほとんどは意図的なものです。さまざまな著者の独特の文体のために、これらのバリエーションがいくつか存在します。
それらを MALLET にフィードした後、生成されたトピックの 1 つが実際には一連のスペルミスのストップワードであることが気になりました。これらの単語は、主に同じ著者のドキュメントの小さなサブセットで使用されていると思われるため、MALLET がそれを取り上げました。
私の質問は、これらの一連のスペルミスのある単語をスペルチェックして修正し、おそらく修正したテキストをどこかに保存してから、さらにタスクを実行するかということです。これは、コミットする前に手動で修正を確認する必要があることを意味すると思いますか? これを行うための最も「効率的な」方法は何でしょうか?
それとも、これらのスペルミスのある単語を実際に無視しますか?