どのエンコーディングが使用されていても、ajax 呼び出しを介して Web サーバーに送信されたときに、一部の種類の文字データが破損するのはなぜかという問題を再検討しています。データが 7 ビット フォーマットにプリコードされている場合でも、出力されるデータと入力されるデータが必ずしも一致するとは限りません。
私はサードパーティの javascript base64 エンコーダーを使用して ajax データを準備していましたが、最初はこれにバグがあると考えていました。しかし、完全な Unicode 互換性を主張するものを含め、他の base64 エンコーダーはまったく同じ問題を示しており、同様の問題に関するフォーラム レポートがいくつかありますが、いずれも完全に解決されたようには見えません。したがって、エンコーダー自体に問題があるとは思いません。
データに特定の上位 ASCII/ANSI コードが含まれている場合、通常、他のプログラムから CKEditor にコピー アンド ペーストされたデータで破損が発生することに気付きました。
さらにいくつかのテストでは、javascript が Web ページから文字データを読み取る方法と、String.fromCharCode() などの内部プログラム メソッドから文字列データを形成する方法との間の何らかの不一致に問題があることを示しているようです。
以下のスニペットでは、テキスト エディターからのカット アンド ペーストによって HTML ドキュメントに挿入された文字 0x9E の処理を、16 進コード 0x9E (U+017E - Arial Latin small z with caron, Windows西洋文字セット)。これは、この異常な動作を引き起こすことが確認されているいくつかの文字コードの 1 つです。奇妙なことに、127 文字を超える他のほとんどの文字コードでは、このような問題は発生せず、本来あるべき 2 バイトの Unicode としてレンダリングされます。
<script>
var pasted_char = 'ž';
alert("Pasted Character: " + pasted_char + " Resultant Code(s): " + charcodes(pasted_char));
var charcode = 0x9E;
var generated_char = String.fromCharCode(charcode);
alert("Generated Character: " + generated_char + " Resultant Code(s): " + charcodes(generated_char));
function charcodes(invar) {
// lists char codes for each byte in a character.
var ccodes = "~";
for (ct=0; ct<invar.length; ct++){
var invarc = invar.charCodeAt(ct);
ccodes += invarc + "~";
}
return ccodes;
}
</script>
UTF-8 ページ文字セットを使用すると、次のようになります。
貼り付けた文字: [0xFFFD] 結果コード: ~65533~
生成された文字: [空白] 結果コード: ~158~
デフォルトのページ文字セットを使用すると、次のようになります。
貼り付け文字: ž 結果コード: ~382~
生成された文字: [空白] 結果コード: ~158~
特に、貼り付けられた文字の処理はどちらも正しくなく、382 のような ANSI コードはありません!
どちらの出力も 1 バイトです。
厳密に言えば、この文字は 8 ビット ASCII/ANSI であり、js はこれを処理するとは主張していませんが、テキスト ドキュメントなどから HTML エディタに貼り付けることは完全に正当です。したがって、javascript サブシステムは、バグが発生することなくそのような入力を処理できる必要があります。とにかく、2 つの異なる方法で同じ文字列を生成しても、2 つの異なる結果が返されないように思えます。
これについての考えは大歓迎です。この異常が ajax 送信の破損にどのような役割を果たしているのか正確にはわかりませんが、それが原因である可能性が高いと思われます。