python - makoで(XHTMLの)出力を適切にエスケープするには?

Question

フィルターを使用して出力をエスケープする優れた方法を提供しているにもかかわらず、正しいことを行うものはありません。文字列を取る：

x=u"&\u0092"

フィルターは次のことを行います。

x             Turns the & into an entity but not the \u0092 (valid XML but not XHTML)
h             Exactly the same
u             Escapes both, but obviously uses url escaping
entities      Only converts named entities, so again only the & is escaped
decode.latin1 The same

HTML は標準の UNICODE コンソーシアムの文字レパートリーを使用し、未定義 (とりわけ) 65 個の文字コード (0 から 31 および 127 から 159 を含む) を残します。

これらは見逃された文字のようです。何か案は？

編集

ファイルをオフラインで使用するかどうかを検証するようです。これは Content-Type の問題でしょうか?

score 2 · Accepted Answer

&#xxxx;意図的に ASCII 文字セットを使用しない限り、Unicode 文字を HTML で動作する形式に変換する必要はありません。名前付きエンティティをエスケープし、文字列全体を UTF-8 にエンコードして、そのように書き出す方が簡単で効率的です。おそらく、HTTP ヘッダーまたは<meta>タグで使用されているエンコーディングを宣言する必要があります。

編集：

ファイルをオフラインで使用するかどうかを検証するようです。これは Content-Type の問題でしょうか?

はい。HTTP ヘッダーを使用して UTF-8 文字セットを強制するか、メタタグを介して HTML で直接指定できます。

<meta http-equiv="Content-Type" content="application/xhtml+xml;charset=utf-8" />

score 1 · Accepted Answer

検証の問題はさておき、他の文字を必ずしもエスケープせずにこれらの文字 (とにかく確実に表示されない) を削除できると便利です。このために、次の関数を「lib/helpers.py」に追加しました。

__sgml_invalid = re.compile(r'[\x82-\x8c\x91-\x9c\x9f]', re.UNICODE)

def sgmlsafe(text):
    lookup = {
        130:"&#8218;",    #Single Low-9 Quotation Mark
        131: "&#402;",    #Latin Small Letter F With Hook
        132:"&#8222;",    #Double Low-9 Quotation Mark
        133:"&#8230;",    #Horizontal Ellipsis
        134:"&#8224;",    #Dagger
        135:"&#8225;",    #Double Dagger
        136: "&#710;",    #Modifier Letter Circumflex Accent
        137:"&#8240;",    #Per Mille Sign
        138: "&#352;",    #Latin Capital Letter S With Caron
        139:"&#8249;",    #Single Left-Pointing Angle Quotation Mark
        140: "&#338;",    #Latin Capital Ligature OE
        145:"&#8216;",    #Left Single Quotation Mark
        146:"&#8217;",    #Right Single Quotation Mark
        147:"&#8220;",    #Left Double Quotation Mark
        148:"&#8221;",    #Right Double Quotation Mark
        149:"&#8226;",    #Bullet
        150:"&#8211;",    #En Dash
        151:"&#8212;",    #Em Dash
        152: "&#732;",    #Small Tilde
        153:"&#8482;",    #Trade Mark Sign
        154: "&#353;",    #Latin Small Letter S With Caron
        155:"&#8250;",    #Single Right-Pointing Angle Quotation Mark
        156: "&#339;",    #Latin Small Ligature OE
        159: "&#376;"     #Latin Capital Letter Y With Diaeresis
        }

    return __sgml_invalid.sub(lambda x: lookup[ord(x.group())], text)

そして、編集することで、これをフィルターとして利用できるようにすることができますenvironment.py:

config['pylons.app_globals'].mako_lookup = TemplateLookup(
    ...
    imports=[....,'from appname.lib.helpers import sgmlsafe',...]

その後、テンプレートで使用できるようになります。

${c.content|n,sgmlsafe}

python - makoで(XHTMLの)出力を適切にエスケープするには?

2 に答える 2

Related

Reference