2

私は Python で単純なクローラーに取り組んでいます。目的は、sitemap.xml を作成することです。(ここで非常にアルファ版を見つけることができます: http://code.google.com/p/sitemappy/ ) 非 HTML エンティティ (& など) を含む URL を使用して xml を生成すると、xml が生成されないことに気付きました。検証し、Google Webmaster Tools によって受け入れられません。URL のクエリ文字列部分をエンコードする簡単な方法はありますか?

ありがとうございました!

マッテオ

4

2 に答える 2

8

cgi.escape救助へ:

cgi.escape(s[, quote])

文字列 s の文字 '&'、'<' および '>' を HTML セーフ シーケンスに変換します。このような文字を含む可能性のあるテキストを HTML で表示する必要がある場合は、これを使用します。オプションのフラグ quote が true の場合、引用符文字 ('"') も変換されます。これは、HTML 属性値に含めるのに役立ちます。またはその両方の場合は、代わりに xml.sax.saxutils モジュールで quoteattr() 関数を使用することを検討してください。

クイックインタラクティブチェック:

>>> import cgi
>>> cgi.escape('<&>')
'&lt;&amp;&gt;'
>>> 
于 2009-10-30T14:36:11.887 に答える