私の質問が一般的で幅広いことは知っていますが、あなたのアイデアで絞り込むために書きました!
非常に古い言語の不完全な辞書があり、それを完成させたいとしましょう! 文章を含む文書はたくさんあります。
最初に、この古い言語に最も近い言語で辞書を埋めます。ほとんどの単語は辞書と 100% 一致しますが、一部の単語は一致しませんが、文字の不一致でペナルティが発生します。
各ドキュメントの各文字の頻度を使用して、ある種の事後エラー確率を割り当てる機械学習または統計的方法はありますか?
1) 一致していない文字は正しくありません。修正すれば、この単語を辞書に追加する必要はありません。
また
2) 不一致が十分に信頼できる文字であり、この単語を新しい単語として辞書に追加する必要があります。
またまた一般質問失礼します!