Jericho HTMLParser3.1を使用しています。
htmlからテキストを抽出して処理する必要があり、これに従って、元のhtmlにタグを挿入する必要があります。
しかし、これには、抽出されたテキストとソースhtmlを一致させる必要があります。
net.htmlparser.jericho.TextExtractor
テキストをかなりうまく抽出しますが、元のファイルで場所を見つける方法を見つけることができませんでした。
Jericho-htmlでそうすることは可能ですか?
Jericho HTMLParser3.1を使用しています。
htmlからテキストを抽出して処理する必要があり、これに従って、元のhtmlにタグを挿入する必要があります。
しかし、これには、抽出されたテキストとソースhtmlを一致させる必要があります。
net.htmlparser.jericho.TextExtractor
テキストをかなりうまく抽出しますが、元のファイルで場所を見つける方法を見つけることができませんでした。
Jericho-htmlでそうすることは可能ですか?
TextExtractorをそのまま使用してこれを行うことはできませんが、過去に同様のことを行う必要がありました。最も簡単な解決策は、JerichoのTextExtractor実装をコピーし、それを編集して独自のカスタム動作を追加することです。非常にシンプルなクラスなので、独自のフックを追加する場所を簡単に確認できます。