7

英語以外の文字の文字数を実装する最適な方法はありますか?たとえば、英語で「母」という単語をとると、6文字の単語になります。ただし、タミル語で同じ単語(மதர்)を入力すると、3文字の単語(ம+த+ர்)になりますが、システムでは最後の文字(ர்)は2文字(ர+ஂ=ர்)と見なされます。では、実際のキャラクターの数を数える方法はありますか?

手がかりの1つは、キーボードのカーソルを単語(மதர்)に移動すると、システムで考慮される4文字ではなく、3文字のみを通過するため、これを使用して解決策を見つける方法はありますか?これに関する助けをいただければ幸いです...

4

2 に答える 2

8

アップデート

昼食から戻る =) 残念ながら、以前の方法はどの外国語でもうまく機能しないのではないかと心配しています。

var UnicodeNsm = [Array 1280] //It holds all escaped Unicode Non Space Marks
function countNSMString(str) {
    var chars = str.split("");
    var count = 0;
    for (var i = 0,ilen = chars.length;i<ilen;i++) {
      if(UnicodeNsm.indexOf(escape(chars[i])) == -1) {
        count++;
       }
    }
    return count;
}

var English = "Mother";  
var Tamil = "மதர்";
var Vietnamese = "mẹ"
var Hindi = "मां"

function logL (str) {    
      console.log(str + " has " + countNSMString(str) + " visible Characters and " + str.length + " normal Characters" ); //"மதர் has 3 visible Characters"
}

logL(English) //"Mother has 6 visible Characters and 6 normal Characters"
logL(Tamil) //"மதர் has 3 visible Characters and 4 normal Characters"
logL(Vietnamese) //"mẹ has 2 visible Characters and 3 normal Characters"
logL(Hindi) //"मां has 1 visible Characters and 3 normal Characters"

したがって、これは文字列に Unicode NSM 文字である文字があるかどうかをチェックし、そのカウントを無視します。これは、タミル語のみではなく、ほとんどの言語で機能するはずです。また、1280 個の要素を持つ配列はそれほど大きくないはずです。パフォーマンスの問題

これは Unicode NSM のリストです http://www.fileformat.info/info/unicode/category/Mn/list.htm

対応するJSBinは次のとおりです


文字列操作を少し試した後 String.indexOf、同じものを返すことがわかりました

"ர்"そして"ர" 意味のため
"ர்ரர".indexOf("ர்") == "ர்ரர".indexOf("ர" + "்") //true
"ர்ரர".indexOf("ர") == "ர்ரர".indexOf("ர" + "ர")//false

これを機会に、こんなことをしてみました

//ர்

var char = "ரர்ர்ரர்்";
var char2 = "ரரர்ர்ரர்்";    
var char3 = "ர்ரர்ர்ரர்்";

function countStr(str) {
         var  chars = str.split("");
         var count = 0;
          for(var i = 0, ilen = chars.length;i<ilen;i++) {
                 var chars2 = chars[i] + chars[i+1];   
                 if (str.indexOf(chars[i]) == str.indexOf(chars2))
                   i += 1;
               count++;
            }
         return count;
 }


console.log("--");

console.log(countStr(char)); //6

console.log(countStr(char2)); //7

console.log(countStr(char3)); //7

上記の文字列でうまくいくようですが、エンコーディングなどについて何も知らないので、いくつかの調整が必要になるかもしれませんが、おそらくそれはあなたが始めることができるポイントです

JSBinはこちら

于 2012-12-11T08:05:51.740 に答える
2

この関数を使用すると、カウント計算でマークの組み合わせを無視できます。

function charCount( str ) {
    var re = /[\u0300-\u036f\u1dc0-\u1dff\u20d0-\u20ff\ufe20-\ufe2f\u0b82\u0b83\u0bbe\u0bbf\u0bc0-\u0bc2\u0bc6-\u0bc8\u0bca-\u0bcd\u0bd7]/g
    return str.replace( re, "").length;
}

console.log(charCount('மதர்'))// 3

//More tests on random Tamil text:
//Paint the text character by character to verify, for instance 'யெ' is a single character, not 2

console.log(charCount("மெய்யெழுத்துக்கள்")); //9
console.log(charCount("ஒவ்வொன்றுடனும்")); //8
console.log(charCount("தமிழ்")); //3
console.log(charCount("வருகின்றனர்.")); //8
console.log(charCount("எழுதப்படும்")); //7

タミル語の記号と記号は、ターゲット文字が Unicode の単一の文字に構成されていないため、正規化は役に立ちません。タミル語のすべての結合記号または記号を正規表現に手動で追加しましたが、通常の結合記号の範囲も含まれているため、正規化形式に関係ありcharCount("ä")ません。1

于 2012-12-11T12:06:23.817 に答える