9

TwitterのStreamAPIからデータを読み取り、xmlfileに書き込むとき。

しかし、のような特殊文字�はエラーを引き起こします(つまり、Chromeでそのxmlfileを開くと、Chromeはその文字にエラーがあったと言いました!)

�xmlfileに書き込む前に、エンコードされたシーケンス()を実際の文字(�)に変換したいです!

これを実装する方法は?

- - - - - - -追加した - - - - - - -

これはXMLFileの内容です。

<?xml version="1.0" encoding="UTF-8"?>
<root>
<text>@carlyraejepsen would be a dream if you follow me, please follow me?, I love you so much you're my inspiration</text>
<text>someone please bring me a caramel apple and a mocha from black cat. i'll love you forever</text>
<text>“@G_MartinFlyKick: Marry me Juliet.I love you and that's all I really know.”&amp;#55357;&#56834;&#55357;&#56834;&#55357;&#56834;&#55357;&#56834;&#55357;&#56834;</text>
<text>"I need to see a picture of him cuz Im trying to imagine you guys making love and all I see is u climbing on top of a big question mark"lmao</text>
<text>@District3music hi, I LOVE YOU follow me please? &amp;lt;3 xx 23</text>
<text>RT @syardley_: So appreciative of my family and people I love, wouldn't be where I am without them. #thankful</text>
<text>#DISTRICT3HALLOWEENFOLLOWSPREE #DISTRICT3HALLOWEENFOLLOWSPREE #3EEKERFROMTHENETHERLANDS love you! Please follow ? @District3music x42</text>
<text>Arguably my favorite electronic music producer @Kluteuk is coming back to Toronto on Dec 22nd. So stoked. Guy has made so many tunes I LOVE.</text>
<text>The stakes are high, the water's rough, but this love is ours.</text>
<text>@NiallOfficial Answer me, I love you very much. Venezuela loves. jhgj</text>
<text>Love this shit http://t.co/qSP79NKx</text>
</root>

そしてここにChromeからのエラーがあります:

This page contains the following errors:

error on line 5 at column 91: xmlParseCharRef: invalid xmlChar value 55357
Below is a rendering of the page up to the first error.
4

2 に答える 2

18

文字参照&#55357;は代理コードポイント(U + D83D)を示しているため、文字に変換しようとするのは誤りです。それはキャラクターではなく、半分のキャラクターでもありません。

参照が生成されたポイントまでさかのぼって追跡する必要があります。その理由は、文字エンコードの混乱である可能性があります。UTF-16では、サロゲートコードユニットが表示される場合がありますが、データが文字として解釈され、別のエンコーディングに変換されたり、文字参照に変換されたりする場合は、ペアで処理する必要があります。

于 2012-10-31T18:43:38.280 に答える
-1

サーバーの応答後に、正規表現を使用して置き換えることができます。Python での簡単な例:

import re 
pattern = re.compile(r'&#')
new_content = pattern.sub(' ', SERVER_RESPONSE)
于 2016-03-14T01:44:51.013 に答える