jsoup - Jsoupは誤ってタグを閉じ、タグテキストをタグから外します

Question

フィードを解析していましたが、タグが誤って閉じられました

<link />http://wwww

これがURLからHTMLを取得するための私のコードです

    Document doc = Jsoup.connect(pURL).get();
    doc.outputSettings().outline(false);
    doc.outputSettings().prettyPrint(false);
    String html = doc.html();

次のXMLを提供します

<!--?xml version="1.0" encoding="utf-8"?--><html><head></head><body><rss version="2.0">    <channel>
    <title>Fenopy rss</title>
    <link />http://fenopy.eu/ <----------@see this
    <description>Fenopy torrent rss</description>
    <language>en-us</language>

        <item>
        <title>Broken City 2013 CAMRip English</title>
        <guid ispermalink="true">http://fenopy.eu/torrent/broken+city+2013+camrip+english/OTU0MDI1MA</guid>
        <pubdate>Sun, 27 Jan 2013 19:23:21 GMT</pubdate>
        <category>Movies</category>
        <link />http://fenopy.eu/torrent/bnglish/OTU0MDI1MA <----------@see this
        <enclosure url="http://fenopy.eu/torrent/Broken-City-2013-CAMRip-English/OTU0MDI1MA==/download.torrent" length="783829383" type="application/x-bittorrent" />
        <description> Category: Movies&lt;br/&gt;Size: 747.5 MB&lt;br/&gt;Ratio: 60 seeds, 11 leechers&lt;br/&gt; </description>
        </item>

しかし、ブラウザで開くと、正しいxmlが表示されます

<?xml version="1.0" encoding="utf-8"?>
<rss version="2.0" >    <channel>
    <title>Fenopy rss</title>
    <link>http://fenopy.eu/</link>
    <description>Fenopy torrent rss</description>
    <language>en-us</language>

        <item>
        <title>Broken City 2013 CAMRip English</title>
        <guid isPermaLink='true'>http://fenopy.eu/torrent/broken+city+2013+camrip+english/OTU0MDI1MA</guid>
        <pubDate>Sun, 27 Jan 2013 19:23:21 GMT</pubDate>
        <category>Movies</category>
        <link>http://fenopy.eu/torrent/broken+city+2013+camrip+english/OTU0MDI1MA</link>
        <enclosure url="http://fenopy.eu/torrent/Broken-City-2013-CAMRip-English/OTU0MDI1MA==/download.torrent" length="783829383" type="application/x-bittorrent" />
        <description><![CDATA[ Category: Movies<br/>Size: 747.5 MB<br/>Ratio: 60 seeds, 11 leechers<br/> ]]></description>
        </item>

何が起こっているのかわかりません。Jsoup 1.7.2 jarにバグはありますか？助けて ...

score 1 · Accepted Answer

バグではありません。GDATA応答のコンテンツタイプはです。したがって、isXMLパーサーapplication/rss+xmlを指定する必要があります。Parserそれ以外の場合、デフォルトではHTMLパーサーであり、動作が異なります。

    // load Document
    Document doc = Jsoup.connect(URL_SOURCE).ignoreContentType(true).parser(Parser.xmlParser()).get();

//outlineとprettyprint=trueを設定した場合、\nと\tの文字を探す必要があり、それらを削除する必要があるため、falseにします

    // config output
    doc.outputSettings().outline(false);
    doc.outputSettings().prettyPrint(false);

    // output result
    System.out.println(doc.html());

<link>XMLパーサーを指定した場合の出力の結果は正しくなります。

jsoup - Jsoupは誤ってタグを閉じ、タグテキストをタグから外します

1 に答える 1

Related

Reference