java - utf-8 文字から見えない文字を削除する方法

Question

ランダムな utf-8 文字列を生成するプログラムを作成しましたが、乱雑な文字がいくつかあります。コードが間違っているのか、一部の文字が表示されていないのかわかりません。これらの乱雑な文字を削除するにはどうすればよいですか (ただし、中国語、韓国語、日本語、記号などは保持したいのですが)?

コードがあります：

private byte randomByteInRange(int min, int max) {
    return (byte) (min + rand.nextInt(max - min));
}

private String randomUtf8String(int length) throws UnsupportedEncodingException {
    int j = 0;
    byte[] bytes = new byte[6 * length];
    for (int i = 0; i < length; ++i) {
        int mod = i % 3;
        if (0 == mod) { // 0xxxxxxx, visible char: 0x20 ~ 0x80
            bytes[j++] = randomByteInRange(0x20, 0x80);
        }
        if (1 == mod) { // 110xxxxx 10xxxxxx
            bytes[j++] = randomByteInRange(0xc0, 0xdf);
            bytes[j++] = randomByteInRange(0x80, 0xbf);
        }
        if (2 == mod) { // 1110xxxx 10xxxxxx 10xxxxxx
            bytes[j++] = randomByteInRange(0xe0, 0xef);
            bytes[j++] = randomByteInRange(0x80, 0xbf);
            bytes[j++] = randomByteInRange(0x80, 0xbf);
        }
    }

    return new String(bytes, 0, j, "UTF-8").replaceAll("\\p{C}+", "");
}

私の出力があります：

kѷ㱾U׽拌w��Ꙙ@

score 3 · Accepted Answer

この方法でランダムな文字列を生成する際の問題はいくつか考えられます。

割り当てられていない範囲、予約された範囲、および私用領域
制御文字
特定の他のコードポイントの後にのみ意味がある記号 (例: diacritic ) の組み合わせ
フォントのサポート (たとえば、お使いのデバイスはOgham スクリプトを表示しますか?)

意味のあるランダム文字列ジェネレーターを実装するには、コードにいくつかのフィルターと自然言語ヒューリスティックを適用する必要があります。

チャートを参照してください。

これがローカリゼーションスモークテスト用であると仮定すると...

別のアプローチとして、ターゲット言語の一般的なフレーズ、日付などを使用するか、ターゲット言語のテキストソースから生成された何らかのマルコフ連鎖を使用することを検討してください。自動翻訳ソフトウェアを使用すると、ターゲット文字列を合理的に表現することもできます。

score 0 · Accepted Answer

Eclipse では、次のように記述します。

Character c;
c.i

ムースカーソルをの直後に置き、で始まる単語c.i
を入力して検索します。CTRL+SPACEis

必要なすべてを使用して入力をテストしますis。

java - utf-8 文字から見えない文字を削除する方法

2 に答える 2

Related

Reference