Unicode 数字を ASCII 数字に正規化する Java API はありますか?
JDKとICU4Jには、この種の正規化を処理できないように見える正規化 API があります(おそらくUnicode 標準では正規化と呼ばれていないため) 。
必要なのは、すべての形式の Unicode 数字 (この投稿にリストされている) を [0-9] に変換することです。考えられる厄介な解決策は、0 から 9 までの任意の数字を 10 ですべて置換することです。
Unicode 数字を ASCII 数字に正規化する Java API はありますか?
JDKとICU4Jには、この種の正規化を処理できないように見える正規化 API があります(おそらくUnicode 標準では正規化と呼ばれていないため) 。
必要なのは、すべての形式の Unicode 数字 (この投稿にリストされている) を [0-9] に変換することです。考えられる厄介な解決策は、0 から 9 までの任意の数字を 10 ですべて置換することです。
アップデート
これは、ICU4J Transliteration APIを使用して可能です。次の文字変換子は、az、AZ、0-9、およびダッシュ (マイナス) を除くすべての非 ASCII 文字を文字列から削除します。
Transliterator trans = Transliterator.getInstance("Any-Latin; NFD; [^a-zA-Z0-9-] Remove");
System.out.println(trans.transform("۱۲۳456"));
印刷します:
123456
別の面倒な解決策
static final Pattern DIGIT_0 = Pattern.compile("[٠۰߀०০੦૦୦௦౦೦൦๐໐0]");
static final Pattern DIGIT_1 = Pattern.compile("[١۱߁१১੧૧୧௧౧೧൧๑໑1]");
static final Pattern DIGIT_2 = Pattern.compile("[٢۲߂२২੨૨୨௨౨೨൨๒໒2]");
static final Pattern DIGIT_3 = Pattern.compile("[٣۳߃३৩੩૩୩௩౩೩൩๓໓3]");
static final Pattern DIGIT_4 = Pattern.compile("[٤۴߄४৪੪૪୪௪౪೪൪๔໔4]");
static final Pattern DIGIT_5 = Pattern.compile("[٥۵߅५৫੫૫୫௫౫೫൫๕໕5]");
static final Pattern DIGIT_6 = Pattern.compile("[٦۶߆६৬੬૬୬௬౬೬൬๖໖6]");
static final Pattern DIGIT_7 = Pattern.compile("[٧۷߇७৭੭૭୭௭౭೭൭๗໗7]");
static final Pattern DIGIT_8 = Pattern.compile("[٨۸߈८৮੮૮୮௮౮೮൮๘໘8]");
static final Pattern DIGIT_9 = Pattern.compile("[٩۹߉९৯੯૯୯௯౯೯൯๙໙9��]");
public static final Pattern[] DIGIT_PATTERN_LIST = { DIGIT_0, DIGIT_1, DIGIT_2, DIGIT_3, DIGIT_4, DIGIT_5, DIGIT_6, DIGIT_7, DIGIT_8,
DIGIT_9 };
/**
* Converts any Unicode digits into their ASCII equivalent. For example given 23۹٤۴ returns 23944
*
* @param str
* @return
*/
public static String normalizeUnicodeDigits(String str) {
for (int i = 0; i < DIGIT_PATTERN_LIST.length; i++) {
Pattern dp = DIGIT_PATTERN_LIST[i];
str = dp.matcher(str).replaceAll(String.valueOf(i));
}
return str;
}