1

`

<item>
<title>Lorem ipsum dolor sit ame</title> 
   `    `      
<description>
&amp;#13;
&amp;#13;
&amp;#13;&lt;div class=&quot;videoInStoryC&quot;&gt;&amp;#13;
&lt;div id=&quot;emp-19102206-25558&quot; class=&quot;emp&quot;&gt;&amp;#13;
&lt;div class=&quot;warning&quot;&gt;&lt;img class=&quot;holding&quot; src=&quot;http://bac.com/asfg.jpg&quot; alt=&quot;ipsim dlor&quot; /&gt;&amp;#13;
&lt;/div&gt;&amp;#13;  &lt;/div&gt;&amp;#13;
&amp;#13;
&lt;p class=&quot;caption&quot;&gt;ipfi fks: &quot;Lorem ipsum dolor sit amel&quot;&lt;/p&gt;&amp;#13;
&lt;/div&gt;&amp;#13;
&amp;#13;
</description>  
</item>

`

タグにエンコードされた HTML を含む RSS フィードがあります。エンコードされた HTML の IMG タグ内の URL ソースを抽出したいと考えています。この場合、URl はhttp://bac.com/asfg.jpgです。img/@src を使用しましたが、成功しませんでした。エンコードされた Html が原因だと思います。ありがとうございました

4

1 に答える 1

0

あなたが使用することができます

parse-xml(replace(/item/description, "&#13;", ""))//img/@src 

XPath 3.0 インタープリターを持っていた場合 (ただし持っていません)

次のようなものを使用できます

filter(/item/description, 'src="([^"]*)"', 1)

インタープリターに、文字列に正規表現を適用するためのフィルター関数のようなものがある場合。(しかし、そうではありません)

使用できます

 replace(replace(/item/description, '.*src="', '', 's'), '".*', '', 's')

XPath 2.0 インタープリターがあり、テキストに画像が 1 つしかない場合

于 2012-08-03T23:30:41.443 に答える