難しい質問でごめんなさい。
次のように、数字を追加するか、数字を置き換える(何も削除しない)ことで修正するシーケンスのセットがたくさんあります。
- 1,2、、3 => 1,7,4,3
- 4、、5、6 => 4,4、5、6
- 4,7,8,9 => 4,7,8,9,1
- 4,7 => 4,8
- 4,7,1 => 4,7,2
それは、パディングされた元のシーケンスとサンプル修正から始まります。
修正されるさまざまなn-gramの頻度を計算することにより、シーケンスを自動的に修正できるようにしたいと思います。最初のサンプルは次のようになります。
- 1 => 1
- 2 => 7
- 3 => 3
- 1,2 => 1,7
- 2,3 => 7,4,3
- 1,2,3 => 1,7,4,3
これらのn-gram補正の頻度を収集し、サンプルデータに含まれる場合と含まれない場合がある新しい入力を補正するための最良の方法を計算する方法を探しています。
これはSMTに似ているようです。