HTML ページからテキスト ブロックを抽出したいのですが、これを行うためにボイラーパイプを使用しています。ページ内の 1 つのテキストに対しては問題なく機能しますが、ブログなどの一部のページでは、ページ内に複数のテキストが含まれています。
すべてのテキストを抽出したいのですが、それぞれを 1 つだけではなく、個別のテキストとして識別します。
これを行うことができるライブラリはありますか?
編集:私は Jsoup を使用して HTML を解析していますが、解析はしたくありませんが、ボイラーパイプのような情報抽出はページで行います。他の同様のツールをテストしたい。