python - Twitter RSS フィードの二重エスケープ特殊文字?? また、Universal Feed Parser を使用してこれを処理するにはどうすればよいですか?

Question

Universal Feed Parserを使用して一連のフィードを解析しています

Twitter が RSS フィードを生成するとき、フィールド内の特定の特殊文字を二重エスケープするように見え<description />ます。たとえば、次のようにツイートするとします。

これは解析できません！

どれが実際に

I can&apos;t parse this!

HTML エンティティで。

Twitter の RSS または Atom フィードから生の XML を見ると、次のようにレンダリングされます。

I can&amp;apos;t parse this!

Universal Feed Parser には、これに関して重大な問題があるようです。エントリの 1 つを解析し、これがどのように解析されるかを見ると、次のようになります。

 I can&amp;apost parse this!

画面に次のようにレンダリングされます

これを解析できます(&A)!

これを動作させる方法はありますか？Firefox でフィードを開くと、エンティティが正しく処理されるため、明らかに文字列を正しく解析できます。

Universal Feed Parser の動作が正しくないことは確かですが、コードのどの部分を修正する必要があるかを見つけるのに苦労しています。

Web サイトに「3000 ユニットテスト」と記載されているので、私も困惑しています。

これらのテストの 1 つは、エンティティを含むフィードを調べますか?

0 に答える 0