FullTextRssFeedサイトを使用して生成されたhttp://fulltextrssfeed.com/feeds.bbci.co.uk/news/rss.xmlのフィードから RSS データを解析しようとしています。唯一の問題は、説明を取得しようとすると「<」が表示されることです。それ以外はすべて正常です!. これでJSoupを使用しようとしましたが、方法がわかりません。どのように提案できますか?使用したコードは、このチュートリアルで使用したものと同じですが、使用した RSS URL を置き換えました。再度、感謝します!
4 に答える
問題は、RSS フィード内の説明にプレーン テキストではなく html が含まれているためです。説明内容は次のとおりです。
<div><span class="story-date"><span class="date">3 April 2013</span> <span class="time-text">Last updated at</span> <span class="time">23:25 ET</span></span> <p><img src="http://news.bbcimg.co.uk/media/images/66739000/jpg/_66739180_philpotts.jpg" width="464" height="261" alt="Mick and Mairead Philpott, Paul Mosley"/><span class="c2">Mick and Mairead Philpott, and Paul Mosley, will be sentenced on Thursday</span></p> <p class="introduction" id="story_continues_1">A couple convicted of killing six of their children in a house fire in Derby are due to be sentenced later.</p> <p>Mick and Mairead Philpott will reappear at Nottingham Crown Court where they were found guilty of six counts of manslaughter, along with their friend Paul Mosley, on Tuesday.</p> <p>The maximum sentence for the crime is life imprisonment.</p> <p>Mrs Justice Thirlwall was due to pass sentence on Wednesday but needed more time to consider mitigation.</p> <p>The court was told that Philpott, 56, was jailed for seven years in 1978 for attempting to murder a previous girlfriend and given a concurrent five-year sentence for stabbing the woman's mother.</p> <p>In 1991 he received a conditional discharge for assault after he head-butted a colleague</p> <p>And in 2010 he was given a police caution after slapping Mairead and dragging her outside by her hair.</p> <p>When Philpott set fire to his house in Victory Road, Derby, he was also facing trial over a road rage incident in which he punched a motorist in the face.</p> <p>He had admitted common assault in relation to the incident but denied dangerous driving.</p> <span class="cross-head">Rape allegation</span> <p>Police have also confirmed that they intend to "thoroughly" investigate an allegation that Philpott raped a woman several years ago.</p> <p>She made the allegation after the death of Philpott's children, but police decided to wait until the end of the manslaughter trial before investigating the complaint further.</p> <p>On Tuesday the jury returned unanimous manslaughter verdicts on Philpott and Mosley, 46, while Mairead Philpott, 32, was convicted by a majority.</p> <p>Jade Philpott, 10, John, nine, Jack, eight, Jesse, six, and Jayden, five, died on the morning of the fire on 11 May 2012.</p> <p>Mairead Philpott's son from a previous relationship, 13-year-old Duwayne, died later in hospital.</p> </div><img src="http://pixel.quantserve.com/pixel/p-89EKCgBk8MZdE.gif" border="0" height="1" width="1" />
description 内の html コンテンツ内にあるものを無視できるように、何らかの方法でパーサーを変更する必要があります。完全な HTML スニペットを取得したら、それを WebView でレンダリングできます。一般に、CDATA は、RSS フィードなどの XML データ内に他のタイプの XML コンテンツ (この場合は HTML) がある場合に使用されると思います。正直なところ、私はその内外に精通していませんが、間違っている可能性があります.
取得する HTML は次のmyRssFeed.getDescription()
ようになります。
<div><span class="story-date"><span class="date">6 April 2013</span> <span class="time-text">Last updated at</span> <span class="time">08:57 ET</span></span> <p><img src="http://news.bbcimg.co.uk/media/images/51606000/jpg/_51606573_fa1d16c0-9c6c-4f82-b0b8-ab66ddd94f78.jpg" width="304" height="171" alt="Breaking news"/></p> <p class="introduction">Nelson Mandela has been discharged from hospital after treatment for pneumonia, South Africa's government has said.</p> <p>It said there had been "a sustained and gradual improvement in his condition".</p> <p>The 94-year-old was admitted on 27 March for a recurring lung infection and had fluid drained at the undisclosed hospital.</p> <p>Mr Mandela served as South Africa's first black president from 1994 to 1999 and is regarded by many as the father of the nation.</p> <p>The <a href="http://redirect.viglink.com?key=11fe087258b6fc0532a5ccfc924805c0&u=http%3A%2F%2Fwww.thepresidency.gov.za%2Fpebble.asp%3Frelid%3D15178">presidency statement read</a>: "Former President Nelson Mandela has been discharged from hospital today, 6 April, following a sustained and gradual improvement in his general condition.</p> <p>"The former president will now receive home-based high care. President [Jacob] Zuma thanks the hard working medical team and hospital staff for looking after Madiba so efficiently."</p> <p>Madiba is Mr Mandela's clan name.</p> <p>The statement continued: "[Mr Zuma] also extended his gratitude to all South Africans and friends of the Republic in Africa and around the world for support."</p> </div><img src="http://pixel.quantserve.com/pixel/p-89EKCgBk8MZdE.gif" border="0" height="1" width="1" />
Jsoup を使用すると、これを試すことができます (未テスト):
それ以外の
feedDescribtion.setText(myRssFeed.getDescription());
これを使って:
feedDescribtion.setText(extractDescriptionText(myRssFeed.getDescription());
次の方法で:
private String extractDescriptionText(String description) {
StringBuffer b = new StringBuffer();
Document dom = Jsoup.parse(description);
Elements paragraphs = dom.getElementsByTag("p");
for (int i=1; i<paragraphs.size(); i++) { // start with 1 to skip the 'breaking news' paragraph
Element p = paragraphs.get(i);
b.append(p.text());
b.append("\n"); // line-break after each paragraph
}
return b.toString();
}
これはうまくいくはずです。微調整が必要かもしれませんが、Jsoup の助けを借りれば簡単に実現できます。
編集:
extractDescriptionText()
上記の例では次のようになります。
南アフリカ政府は、ネルソン・マンデラが肺炎の治療を受けて退院したと発表した。「彼の状態は持続的かつ徐々に改善された」と述べた。94 歳の男性は 3 月 27 日に再発性の肺感染症で入院し、非公開の病院で体液を排出されました。マンデラ氏は 1994 年から 1999 年まで南アフリカ初の黒人大統領を務め、多くの人からこの国の父と見なされています。大統領の声明には次のように書かれている:「ネルソン・マンデラ前大統領は、全身状態が持続的かつ徐々に改善したため、本日4月6日に退院しました。」
コメントしたいのですが、ポイントが足りません。
RSS フィードをリダイレクトするには、Yahoo パイプを使用することをお勧めします。xml ではなく json としてリダイレクトするように選択することもできます。
アクセスしたほとんどの Web サイトでパーサーが正常に動作している場合、これが問題を解決する最も簡単な方法です。