次のように、Pythonでスペルチェックのような操作を実行する必要があります。
私は単語の膨大なリストを持っています(それをレキシコンと呼びましょう)。これでテキストが表示されます(サンプルと呼びましょう)。レキシコンで各サンプル単語を検索する必要があります。見つからない場合は、そのサンプル単語はエラーです。
つまり、ブルートフォースのスペルチェッカーです。ただし、各サンプル単語のレキシコンを直線的に検索するのは遅くなります。これを行うためのより良い方法は何ですか?
複雑な要因は、サンプルもレキシコンも英語ではないということです。これは、26文字ではなく、300文字を超えることができる言語であり、Unicodeに格納されています。
任意のアルゴリズム/データ構造/並列化方法の提案が役立ちます。100%の精度は必要ないので、100%未満の精度で高速なアルゴリズムが最適です。Norvigのこのアルゴリズムについては知っていますが、英語固有のようです。