1

HTML ページからテキスト ブロックを抽出したいのですが、これを行うためにボイラーパイプを使用しています。ページ内の 1 つのテキストに対しては問題なく機能しますが、ブログなどの一部のページでは、ページ内に複数のテキストが含まれています。

すべてのテキストを抽出したいのですが、それぞれを 1 つだけではなく、個別のテキストとして識別します。

これを行うことができるライブラリはありますか?

編集:私は Jsoup を使用して HTML を解析していますが、解析はしたくありませんが、ボイラーパイプのような情報抽出はページで行います。他の同様のツールをテストしたい。

4

3 に答える 3

2

個人的にはDoj と HtmlUnit一緒に使うのが好きでした。基本的に、Doj は Java の CSS セレクターに似たものを導入します。

例(公式ページより):

Doj spanDoj = Doj.on(page).get("#updates tr", 1).get("td", 2).get("span.item");

リンクされたページでより複雑な例を見ることができます (下にスクロールしてください)。

于 2012-01-20T12:41:34.733 に答える