machine-learning - エラーモデル言語

Question

適切な名前のスペルチェッカーを作成する必要があります。

最初の部分である言語モデルチェッカーを書きましたが、ここで最も困難な部分であるエラーモデル P(W|C) があります。つまり、著者が C を意味する場合に W がテキストに入力される確率です。

それを解決するために、私は最も簡単な解決策を思いつきました.1つの名前が複数ある場合、アルゴリズムは最も一般的な名前を選択する必要があります.

アプリケーションは正常に動作しますが、改善したいと思います。最も一般的なエラーから学習する e ラーニングマシンのアルゴリズムを紹介したいと思います。機械学習アルゴリズムを実装する必要があります。

そこで、どうしたらよいかを考え始めました。

エラーモデル言語には、いくつかのパターンを見つけることができます:

単語の途中にスペルミスがあるのが最も一般的です。
母音を別の母音と間違えやすい
... すぐ...

これらすべてを事実として実装したいと思います。

さらに、このアルゴリズムはテキスト認識または音声認識に使用される可能性があるため、次のことを考慮する必要があります。

同音異義語のエラー、f の v のスペルミスは、q の v のスペルミスよりも一般的です。
l の i のつづりを間違えたり、! 言葉の中に。

問題をよりよく説明するには、次の 2 つのシナリオを想像してください。

1 つ目は、アルゴリズムを使用してスキャンしたシートから読み取る場合です。
もう1つは、アルゴリズムが音声認識に使用される場合です。

最初のシナリオでは、似たような音の文字などのエラーが発生する可能性が高くなりますが、2 番目のシナリオでは、タイプミスが発生する可能性が高くなります。私のアルゴリズムが動作するシナリオがわからないので、シナリオに動的に適応するアルゴリズムを実装する必要があります。つまり、g!useppe のようなエラーが発生した場合は、giuseppe ( o.4) geuseppe の可能性があります。 ( o.6) ! の形状のため、アルゴリズムは最初のものを選択する必要があります。は i に似ており、同様のエラーがたくさん見つかりました。

解決策は、エラーから学習する機械学習アルゴリズムだと思います。

最初の質問です。問題を明確に説明しましたか?
もしそうなら、どのアルゴリズムが私の要件を満たしていますか?

AI と機械学習に関する私の経験は限られています。

score 0 · Accepted Answer

最も可能性が高い正しいスペルを 1 つ選択するのは非常に困難です。そのため、ほとんどのスペルチェッカーは複数のオプションから選択できます。可能であれば、あなたもそうすることをお勧めします。統計的な学習をまったく行わなくても済むかもしれません。ユーザーと入力の間の編集距離が特定の値 N を下回るように、可能なすべての有効な名前をユーザーに提示するだけです。

machine-learning - エラーモデル言語

1 に答える 1

Related

Reference