machine-learning - 新しい単語または古い辞書の既存の単語の誤字?

翻译自：https://stackoverflow.com/questions/19385506 2013-10-15T15:44:50.963

71 次

0

私の質問が一般的で幅広いことは知っていますが、あなたのアイデアで絞り込むために書きました!

非常に古い言語の不完全な辞書があり、それを完成させたいとしましょう! 文章を含む文書はたくさんあります。

最初に、この古い言語に最も近い言語で辞書を埋めます。ほとんどの単語は辞書と 100% 一致しますが、一部の単語は一致しませんが、文字の不一致でペナルティが発生します。

各ドキュメントの各文字の頻度を使用して、ある種の事後エラー確率を割り当てる機械学習または統計的方法はありますか?

1) 一致していない文字は正しくありません。修正すれば、この単語を辞書に追加する必要はありません。

また

2) 不一致が十分に信頼できる文字であり、この単語を新しい単語として辞書に追加する必要があります。

またまた一般質問失礼します！

0 に答える 0