2

HTML ページを解析してテキスト コンテンツを抽出するためのリソースが多数あります。Jsoup がその例です。私の場合、各文が発生する html タグでタグ付けされたテキスト コンテンツを抽出したいと考えています。たとえば、このページを見てください

<html>
<head><title>Test Page</title>
<body>
<h1>This is a test page</h1>
<p> The goal is to extract <b>textual content <em> with html tags</em> </b> from html pages.
</body>
</html>

出力は次のようになると予想しています。

<h1>This is a test page</h1>
<p> The goal is to extract <b>textual content <em> with html tags</em> </b> from html pages.

つまり、ページのテキスト コンテンツ内に特定の html タグを含めたいと考えています。

4

2 に答える 2

0

あなたは2つのステップでそれを行います。まず、説明したように、JSoupを使用してDOMツリーを作成します。次に、XSLフィルターを使用して処理します。XSLフィルターでは、関心のあるタグのみを抽出できます。

于 2012-08-26T21:54:56.067 に答える
0

結果を取得するには、これを使用できます。

final String html = "<html>"
        + "<head><title>Test Page</title>"
        + "<body>"
        + "<h1>This is a test page</h1>"
        + "<p> The goal is to extract <b>textual content <em> with html tags</em> </b> from html pages."
        + "</body>"
        + "</html>";

// Parse the String into a Jsoup Document
Document doc = Jsoup.parse(html);
Elements body = doc.body().children();

// Do further things here ...
System.out.println(body);

String の代わりにhtml、ファイルや Web サイトを読み込むこともできます - jsoup はこれらすべてを提供します。

この例bodyには、結果として投稿した html が含まれています。

または、「h1 の後に p タグ」のようなものを選択する必要がありますか?

ただし、Jsoup Selector APIをご覧ください。

于 2012-08-27T11:44:25.097 に答える