フィードから最新ニュースを取得する自分のウェブサイト http://www.werchelsea.com/ 用のニュースリーダー アプリを開発しています: http://www.werchelsea.com/feed/atom/フィードを取得することに成功しました適切に文字列にキャストします。私の主な問題は、フィードの説明に次のような html タグを含むデータが含まれていることです。
<p>It was Raul Meireles who came from the Merseyside to London to complete his move from Liverpool to Chelsea on the dead line day of the summer transfer window last year, when Chelsea failed to sign the highly-rated midfielder, Luka Modric. Chelsea were left with no other choice but to sign the Portuguese midfielder.</p>
<p>Meireles was a regular starter under the management of Villas-Boas, he really enjoyed working under
<a href='http://www.werchelsea.com/2012/09/05/time-to-say-good-bye-to-raul-meireles/303777_153113331443746_1122718871_n/' title='303777_153113331443746_1122718871_n'><img width="150" height="150" src="http://www.werchelsea.com/wp-content/uploads/2012/09/303777_153113331443746_1122718871_n-150x150.jpg" class="attachment-thumbnail" alt="Meireles first training session with Chelsea football club" title="303777_153113331443746_1122718871_n" /></a>
私が試したのは、これらすべてのタグを正規表現に置き換えることでしたが、何らかの理由で、すべての html タグ タイプに一致する正しい RE を見つけることができません。私が交換していたものは次のとおりです。
protected String doInBackground(String... arg0) {
String response="";
try{
URL feedwebsite=new URL(feedURL);
SAXParserFactory spf=SAXParserFactory.newInstance();
SAXParser sp = spf.newSAXParser();
XMLHandler feedHandler=new XMLHandler();
XMLReader feedReader=sp.getXMLReader();
feedReader.setContentHandler(feedHandler);
InputSource is=new InputSource(feedwebsite.openStream());
feedReader.parse(is);
response=feedHandler.getParsedFeed().replaceAll("<"+"[0-9a-zA-Z]+"+">","_").replaceAll("</"+"[0-9a-zA-Z]+"+">","-").replaceAll("<"+"[0-9a-zA-Z]+"+"/>",".");
}
catch (Exception e)
{
response="Cannot Connect to the server.Please Check your Wifi/Data Connection.";
e.printStackTrace();
}
return response;
}***
RE を使用して文字列を置き換えることが正しい手順である場合、または他の方法がある場合は、私を助けてください。