java - HTML ページからテキストブロックを抽出する Java ライブラリ

Question

HTML ページからテキストブロックを抽出したいのですが、これを行うためにボイラーパイプを使用しています。ページ内の 1 つのテキストに対しては問題なく機能しますが、ブログなどの一部のページでは、ページ内に複数のテキストが含まれています。

すべてのテキストを抽出したいのですが、それぞれを 1 つだけではなく、個別のテキストとして識別します。

これを行うことができるライブラリはありますか？

編集:私は Jsoup を使用して HTML を解析していますが、解析はしたくありませんが、ボイラーパイプのような情報抽出はページで行います。他の同様のツールをテストしたい。

score 2 · Accepted Answer

個人的にはDoj と HtmlUnit を一緒に使うのが好きでした。基本的に、Doj は Java の CSS セレクターに似たものを導入します。

例（公式ページより）：

Doj spanDoj = Doj.on(page).get("#updates tr", 1).get("td", 2).get("span.item");

リンクされたページでより複雑な例を見ることができます (下にスクロールしてください)。

java - HTML ページからテキスト ブロックを抽出する Java ライブラリ