読者とヘルパーの皆さん、こんにちは。最近見つけたjavascript関数を利用したいと思います。そのLZWは文字列を圧縮します。
function lzw_encode(s) {
var dict = {};
var data = (s + "").split("");
var out = [];
var currChar;
var phrase = data[0];
var code = 256;
for (var i=1; i<data.length; i++) {
currChar=data[i];
if (dict[phrase + currChar] != null) {
phrase += currChar;
}
else {
out.push(phrase.length > 1 ? dict[phrase] : phrase.charCodeAt(0));
dict[phrase + currChar] = code;
code++;
phrase=currChar;
}
}
out.push(phrase.length > 1 ? dict[phrase] : phrase.charCodeAt(0));
for (var i=0; i<out.length; i++) {
out[i] = String.fromCharCode(out[i]);
}
return out.join("");
}
この関数は実際には非常にうまく機能しています。唯一の問題は、エンコードされた文字列をWebSocket経由で、追加のエンコード(base64など)なしで転送したいのですが、毎回機能するわけではありません。圧縮された文字列にWebSocket経由で転送できない文字が含まれている場合があり、文字列に不正な文字が含まれているというjavascriptエラーがスローされます。したがって、私の考えは、圧縮に使用する必要がある文字の「ホワイトリスト」のように、エンコードプロセスで受け入れ可能な文字のみを使用することでした。私がコードから理解したことは、それがいくつかの数のcharCodeを取得することです。したがって、私は自分のcharCodeSetを作成することはできましたが、それを実装する方法と、それが機能するかどうかさえ本当にわかりません。
- Q1:lzwエンコーディングで定義した文字列の文字を使用するために何ができますか?
- Q2:WebSocketが転送したくないこれらの中国語、アラビア語、および制御文字を「http / s」で転送するには、他にどのような方法がありますか?
ちなみに、これはChromeがスローしているエラーです:
Websocket message contains invalid character(s).
Uncaught Error: SYNTAX_ERR: DOM Exception 12
Update1:ただし、デコード機能も表示されている場合は役立つ可能性があります
function lzw_decode(s) {
var dict = {};
var data = (s + "").split("");
var currChar = data[0];
var oldPhrase = currChar;
var out = [currChar];
var code = 256;
var phrase;
for (var i=1; i<data.length; i++) {
var currCode = data[i].charCodeAt(0);
if (currCode < 256) {
phrase = data[i];
}
else {
phrase = dict[currCode] ? dict[currCode] : (oldPhrase + currChar);
}
out.push(phrase);
currChar = phrase.charAt(0);
dict[code] = oldPhrase + currChar;
code++;
oldPhrase = phrase;
}
return out.join("");
}
ここでは、カスタム文字セットも実装する必要があると思いますか?..