dtSearchを使用して、いくつかの外部 Web ページのインデックスを作成しています。ページの HTML コンテンツ全体を取得します。
Web サイトの検索結果のリストにページが表示されるとき、結果の一部として強調表示された/太字の検索用語を含むコンテンツの抜粋を表示したいと考えています(つまり、誰もが慣れ親しんでいるのと同じことです)。各 Google 検索結果の下に表示されます)。
これを達成するための最良の方法は何ですか?HTML タグを解析して削除する必要がありますか? もしそうなら、どのようにそれを効果的に行うのですか?
概念実証は機能しており、検索用語が強調表示された抜粋が表示されていますが、タグをレンダリングするか、(私たちが試みたように) それらを取り除こうとする必要があり、最終的には実際にはコンテンツではない不要な情報が得られます。
dtSearch を使用しているのは偶然だと思います。別の検索ツールでこの種のことを実行できる場合は、代わりにそれを使用することを検討します.
基本的に、これを達成するために独自の正規表現を作成する必要があるのか、それともライブラリやツールによって既に解決されている既知の問題なのかを判断しようとしています。
たまたま .NET/C# を使用しています。問題の中心ではないと思いますが、使用できるライブラリに影響を与える可能性があります。