0

Web ページ内のテキストを処理し、特定のエンティティへのリンクを追加し、ページを元のとおりに再表示する Web アプリを構築していますが、いくつかのリンクが追加されています。サーバー側のコードは Perl と Python で作成されており、現在 HTML::Parser を使用してページからテキストを抽出しています。問題なくマークアップをクリーンアップし、テキストを抽出して処理できますが、元のページをそのまま表示したいのですが、以前にリンクされていないテキストにいくつかのリンクが追加されているだけです。

テキスト内の特定の単語やフレーズにリンクを追加して、まったく同じページを再表示する最善の方法を見つけたいと思っています。元のマークアップはすべて、テキストが抽出される前とまったく同じ状態で保持する必要があります。

徹底的に検索しましたが、この問題に対する正確な解決策が見つかりません。どんな助けでも大歓迎です。

4

1 に答える 1