テキストを分析して、禁止された単語が存在するようにする必要があります。ブラックリストが「禁止」という単語であるとします。言葉には多くの形があります。テキストでは、「禁じられている」、「禁じられている」、「禁じられている」などの単語を使用できます。単語を最初の形にするために、見出し語化のプロセスを使用します。あなたの提案は?
タイプミスはどうですか?
例: 「F0rb1d」。damerau-Levenshtein などを使用すると思います。あなたの提案は?
そして、「禁断の情報。会社の私信
。」または「Forrb1dden1nformation.Privatecorresp0ndenceofthec0mpany.」(はい、空白なし)
この問題を解決するには?
テキストはリアルタイムで処理されるため、高速なアルゴリズムが望ましいです。
また、パフォーマンスを向上させるためのヒント (保管方法など) はありますか?