シンハラ語 (スリランカの言語) の光学式文字認識を構築しました。ある程度成功しています。今私がする必要があるのは、辞書データを使用した後処理です。
つづりの間違った単語を正しい単語に変更するための最良の方法は何ですか? 誰でも提案できますか?
Unicode の辞書データ ファイルと、OCR 出力も Unicode ファイルがあります。私はC++を使用してこれを行っています。これまでのところ、文字列一致アルゴリズムを試しましたが、成功していません。この問題に対する最も適切なアプローチを開始したいと思います。誰でも私を助けてもらえますか?
前もって感謝します。