このようなことを行う最善の方法は、各 html タグをエスケープし、それぞれを適切に処理することです。head 要素とメタデータには興味がないと仮定すると、次の html ページに対して以下の疑似コードのようなことを行うことができます。
<html>
...
<head>
...
</head>
<body>
<h1> some text probably your title </h1>
<p1> first paragraph </p1>
<p2> second paragraph </p2>
<img src='/some_url' title='some_title'>
</body>
</html>
ここで行う必要があることについては、html ページが実際にどのように設定されるかは webpage/rss フィードに依存することにも注意してください。そのため、多くのサイトで変更が必要になる可能性があります。 : llok と言うときではなく、部分文字列 (デバイス上の場合は Java) を検索する方法を意味します。
find("<body>") everything before can be thrown away
find ("<img" or "<p1" or "<h1" or "<div") handle accordingly
(おそらく、これはページのソースで変更されます)
but for say <p1 found
find (">") represents end of tag attribute pull all of this until delimiter tag "</p1>"
画像タグの最初の段落があります
ie. find("<img")
then find("title=") or find("src=")
これらの後の部分文字列は、それぞれ画像のタイトルとソース ファイルになります。これらの値は、'
またはのいずれかでラップされるわけではありません。"
これは完全な解決策ではありませんが、あなたが試したことを見たので、出発点です