HTMLドキュメント、よくあるスペルミスのリスト、および各ケースの正しいスペルがあります。HTMLドキュメントは最大50ページになり、最大30Kのスペル修正エントリがあります。
このHTMLドキュメントのすべてのスペルミスを修正する効率的な方法は何ですか?
(注:関連するライブラリを知っている場合は、私の実装はPythonで行われます。)
私は2つの可能なアプローチを考えました:
- スペルデータのハッシュテーブルを作成する
- HTMLからテキストを解析する
- テキストを空白でトークンに分割する
- スペルハッシュテーブルのトークンが修正に置き換えられた場合
- 更新されたテキストで新しいHTMLドキュメントを作成する
このアプローチは、存在する複数の単語のスペル修正では失敗します。以下は、複数の単語に対して機能する、一見効率の悪いアプローチですが、より単純です。
- スペルデータを繰り返す
- HTMLドキュメントで単語を検索する
- 単語が存在する場合は修正に置き換えます