人気のあるドイツのニュース サイト ( taz.de )の特定の rss フィードを解析しようとしています。残念ながら、説明タグにはプレーンテキストだけでなく、写真やリンクなど、あらゆるものが混在しています.
<description>
<![CDATA[<a href="http://www.taz.de/10-Jahre-nach-dem-Irakkrieg/!113046/"><img align="left" style="margin-right:5px;" src="/uploads/images/152x76/18032013_Bush_Irakkrieg_rtr.jpg" border="0" width="152" height="76" /></a>Das Land ist von einem funktionierenden Rechtsstaat weit entfernt. Zehn Jahre nach dem Irakkrieg zeigt sich eine niederschmetternde Bilanz. <a href="http://www.taz.de/10-Jahre-nach-dem-Irakkrieg/!113046/">mehr...</a>]]>
</description>
私が興味を持っている唯一のことは、Das Land ist von einem funktionierenden Rechtsstaat weit entfernt. Zehn Jahre nach dem Irakkrieg zeigt sich eine niederschmetternde Bilanz.
どのようにして効率的な方法でそれを行うのですか (ひどい文字列操作なしで) というテキストです。属性名が無いからヤバいのかな?私は RaptureXML を使用していますが、この問題に対するより優れたライブラリがあれば、xml パーサーに切り替えます。