私は Web ベースの WYSIWYG エディターのスペル チェック機能の実装に取り組んでいます。現在、Damerau-Levenshtein 距離アルゴリズムを使用して、スペル候補のリストを作成しています。これはすべてうまく機能していますが、機能をどのように改善できるかについて興味があります。
具体的には、私の実装は現在、結合された単語を処理しません。たとえば、「areyou」を検出して、代わりに「are you」を提案できるようにしたいと考えています。これは、潜在的に結合されている可能性のある単語を見た目のセグメントで分割し、両方の半分をテストすることで実現できると思います。すべての英語の単語には少なくとも 1 つの母音がなければならないので、単語をどこで分割するかを決めるのに役立つ母音を探すことができると思います。
Damerau-Levenshtein 距離アルゴリズムはとても役に立ちました。他の人が私よりも多くのことを考えていることは明らかです。結合された単語を検出するために考慮すべき同様に賢いアルゴリズムはありますか、それともすでに正しい方向に進んでいますか?