java - Jericho-html：ソースファイル内の位置を参照してテキストを抽出することは可能ですか？

Question

htmlからテキストを抽出して処理する必要があり、これに従って、元のhtmlにタグを挿入する必要があります。

しかし、これには、抽出されたテキストとソースhtmlを一致させる必要があります。

net.htmlparser.jericho.TextExtractorテキストをかなりうまく抽出しますが、元のファイルで場所を見つける方法を見つけることができませんでした。

Jericho-htmlでそうすることは可能ですか？

score 2 · Accepted Answer

TextExtractorをそのまま使用してこれを行うことはできませんが、過去に同様のことを行う必要がありました。最も簡単な解決策は、JerichoのTextExtractor実装をコピーし、それを編集して独自のカスタム動作を追加することです。非常にシンプルなクラスなので、独自のフックを追加する場所を簡単に確認できます。

java - Jericho-html：ソースファイル内の位置を参照してテキストを抽出することは可能ですか？

1 に答える 1

Related

Reference