4

いくつかの単語を含む文字列があります。タミル語Unicodeの文字のみを含むすべての単語を調べたい。私はjavascriptを初めて使用します。

Goを使用して、私は同じようにします:

            tokens := strings.Fields(stringContent, delim) // split based on delim, say space

            for _, token := range tokens { //like foreach
                r, l := utf8.DecodeRuneInString(token)
                if l != 1 {
                    if unicode.Is(unicode.Tamil, r) {
                        // Tamil word
                    }
                }
            }

string.split()は、javascriptの区切り文字に基づいて個々の単語を提供することがわかりました。しかし、その単語がUTF-8TAMIL単語であるかどうかを取得する方法を見つけることができません。誰かがjavascriptでこれを達成するのを手伝ってもらえますか?

4

1 に答える 1

10

簡単な方法は、Unicode範囲の文字を含む単語に対して正規表現の一致を行うことです。

これがお役に立てば幸いです:http://kourge.net/projects/regexp-unicode-block

始めることができるサンプル

"இந்தியா ASASAS எறத்தாழ ASSASAS குடியரசு ASWED SAASAS".match(/[\u0B80-\u0BFF]+/g);
于 2012-08-16T08:07:21.603 に答える