多言語の不適切な単語の大きなリスト(約5000語)を含むmysqlテーブルがあります。ユーザーが作成したテキストメッセージ内の冒とく的な言葉を除外する効率的な方法を見つける必要があります。悪い言葉のリストが大きいので、phpregexを使用することは私には適切ではないようです。
また、メッセージを単語に分割してから各単語をクエリすることは、ユーザーが大きなメッセージを投稿するトラフィックの多いサイトにとっては恐ろしい解決策です。多くのユーザーがこのサービスを同時に使用するため、最適化されたソリューションが必要です。
助言がありますか?または、正規表現が適切だと思われる場合は、CPU/メモリ使用量と実行時間の観点から実現可能性を説明できますか?