クロールされた HTML Web ページからテキストを抽出したいと考えています。私はまさにそれを行うために、優れたオープン ソースのBoilerpipeライブラリを使用しています。ただし、Boilerpipe を使用すると、生のテキストしか取得できません。生のテキストに加えて、すべての css スタイリング情報をインライン化して、元のソースの書式設定情報を含むテキストをキャプチャする必要があります。
Boilerpipe または他の Java ライブラリ、できればオープン ソースでこれを行う方法はありますか?