JavaScript 文字列を取得し、その文字列で発生するすべてのスクリプトを返す効率的な方法を探しています。
サロゲート ペアを必要とする「アストラル」プレーン/非 BMP 文字を含む完全な UTF-16 を正しく処理する必要があります。JavaScript は UTF-16 に対応していないため、これがおそらく主な問題です。
コードポイントのみを処理する必要があるため、複雑なスクリプトや書記素クラスターを意識する必要はありません。(とにかく、これは一部の人には明らかです。)
例:
stringToIso15924("παν語");
次のようなものを返します:
[ "Grek", "Hani" ]
私は node.js とXRegExpやunormなどのいくつかの Unicode ライブラリを既に使用しているので、そのような機能を既に処理または緩和している他のライブラリを追加してもかまいません。
スクリプト コードなどの文字プロパティを検索できる JavaScript ライブラリを私は知らないので、これはおそらく問題の 2 番目の部分です。
問題の 3 番目の部分は、非効率性を回避することです。