与えられた単語について、n個の最も近いスペルミスを見つけたいと思います。他に提案がない限り、aspellのようなオープンソースのスペルチェッカーがそのコンテキストで役立つかどうか疑問に思いました。
例:「健康」
私に与えるだろう:ealth、halth、heallth、healf、..。
与えられた単語について、n個の最も近いスペルミスを見つけたいと思います。他に提案がない限り、aspellのようなオープンソースのスペルチェッカーがそのコンテキストで役立つかどうか疑問に思いました。
例:「健康」
私に与えるだろう:ealth、halth、heallth、healf、..。
スペル修正ツールは、スペルが間違っている単語を取得し、正しいスペルの候補を提供します。あなたは別の方向に行きたいようです。
スペルが正しい単語から一連のスペルミスの可能性がある単語への移行は、一般的な単語に一連のミューテーション ヒューリスティックを適用することで実行できる可能性があります。これらのヒューリスティックは、次のようなことを行う可能性があります。
正しいスペルの単語から一連の一般的なスペルミスに移行するのは非常に困難です。おそらく、これを行う唯一の信頼できる方法は、大規模なユーザー コミュニティが使用するスペル チェック パッケージを計測し、スペル チェックを使用して行われた実際のスペル修正を記録し、結果を集計することです。それはおそらく (!) プロジェクトの範囲を超えています。
私の答えを再訪すると、私は何かを逃したと思います。
上記のヒューリスティックは、スペルミスではなく、主に入力エラーに関するものです。入力ミスとは、ユーザーが正しいスペルを知っていても、単語を間違って入力した場合です。スペルミスとは、人が単語の正しいスペルを知らず、誤った知識または直感 (つまり推測) を使用する場合です。典型的な推測は、単語がどのように聞こえるかを聞いてから、(正しい場合) そのように発音される可能性が最も高いスペルを選択することに基づいています。
したがって、スペルミスを予測するための優れたヒューリスティックは、単語が実際に話されたときにどのように聞こえるかに基づいている必要があります。これには、音声辞書 (実際の単語からその発音まで調べるため) と、音声単語のもっともらしいスペルを生成するための一連の規則が必要です。これは、入力エラーに対する単純なヒューリスティックよりも複雑です。