2

ロングバージョン:

RSSファミリの標準化の悪夢に精通している人は、たとえば「description」要素にプレーンテキストまたはhtmlまたはxhtmlだけが含まれている場合、RSSが情報を提供しないことを知っているかもしれません。

私は現在、ROME-APIを使用してさまざまなRSSバージョンからAtom1.0に変換しています。Rome-APIはRSSを適切に解析し、後でAtomフィードを出力します。幸い、Atomには、テキスト、html、またはxhtmlを含む要約を宣言する手段があります。

例。RSS:

 <item>
       <link>http://www.schwarzwaelder-bote.de/wm?catId=79039&amp;artId=14737088&amp;rss=true</link>
        <title>Analyse: Winter reißt Löcher in Straßen und Kassen</title>
        <description>&lt;img src="http://www.schwarzwaelder-bote.de/cms_images/swol/dpa-InfoLine_rs-images/20100306/1192a_24128948.thumbnail.jpg" alt="Schlagloch" title="" border="0"&gt;&amp;nbsp;&amp    ;nbsp;&amp;nbsp;Berlin (dpa) - Von Schnee und Eis befreit sind Deutschlands Straßen, und jetzt geht es ans große Aufräumen....</description>
      </item>

になる:ATOM:

<entry>
  <title>Analyse: Winter reißt Löcher in Straßen und Kassen</title>
  <link rel="alternate" href="http://www.schwarzwaelder-bote.de/wm?catId=79039&amp;artId=14737088&amp;rss=true" />
  <author>
    <name />
  </author>
  <id>http://www.schwarzwaelder-bote.de/wm?catId=79039&amp;artId=14737088&amp;rss=true</id>
  <summary type="text">&lt;img src="http://www.schwarzwaelder-bote.de/cms_images/swol/dpa-InfoLine_rs-images/20100306/1192a_24128948.thumbnail.jpg" alt="Schlagloch" title="" border="0"&gt;&amp;nbs    p;&amp;nbsp;&amp;nbsp;Berlin (dpa) - Von Schnee und Eis befreit sind Deutschlands Straßen, und jetzt geht es ans große Aufräumen....</summary>
</entry>

問題はtype="text"、Firefoxのようなフィードリーダーに要約のコンテンツをテキストとしてレンダリングするように指示することです->すべてのhtmlソースを見ることができます。

短いバージョン:description要素のコンテンツが(X)HTMLであることを検出して、正しいtype属性を設定するにはどうすればよいですか?

4

1 に答える 1

0

へー、私のおじいちゃんはその新聞を読んでいた:)

HTML を検出するための非常に原始的なアプローチは、ソースからタグを取り除き (PHP では を使用してstrip_tags())、結果がオリジナルと異なるかどうかを確認することです。html_entity_decode()RSS の混乱を参照すると、エンティティ エンコードされたタグとエンコードされていないタグの両方が確実に検出されるように、前に 1 回、後に 1 回、これを 2 回実行する必要がある場合があります。

通常、それは中途半端な信頼できる結果をもたらすはずですが、私はこれを見ましたö:

   <title>Analyse: Dem Mutigen geh<F6>rt die Urne</title>

これはどのようなエンコード方式ですか? 私は前にそれを見たことがありません。もちろん、それは HTML タグとして (誤って) 解釈されます。これは原子固有のものですか?

于 2010-03-07T16:17:41.407 に答える