最大 2000 の用語を含む用語集があります (各用語集の用語は、1 つ、2 つ、または 3 つの単語 (空白またはダッシュで区切られたもの) で構成されます)。
現在、強調表示された用語を含む静的な HTML ページを生成するために、(より長い) HTML ドキュメント (最大 100 KB の HTML マークアップ) 内のすべての用語を強調表示するソリューションを探しています。
機能するソリューションの制約は次のとおりです。多数の用語集用語と長い HTML ドキュメント... (Python 内で) 効率的なソリューションの青写真は何でしょうか。
現在、lxml を使用して HTML ドキュメントを解析し、すべてのテキスト ノードを反復処理してから、各テキスト ノード内のコンテンツをすべての用語集用語と照合することを考えています。
クライアント側 (ブラウザー) のハイライトはオンザフライではありません。IE は、スクリプトのタイムアウトで実行時間の長いスクリプトについて不平を言うので、本番環境では使用できません。
もっと良いアイデアはありますか?