ユーザーからの入力を UTF8 文字列として取得し、文字列の言語を検出して、文字列を圧縮された byte[]として保存したいと思います。すべての文字が同じ言語でない場合、それは有効な入力ではありません。ユーザーから有効な入力を取得した後、この入力文字列をバイト配列として保存したいと思います。
ユーザーが英語以外の文字を含む文字列を入力した場合、各文字は 1 バイト以上を占めるため、文字列の言語を保存し、各文字を 1 バイトで保存したいと思います (文字を保存できるようになったと思います)。その言語の開始コード ポイントとの違いだけを格納することにより、1 バイトで & すべての文字が同じ言語からのものであるため & (!?) したがって、範囲が狭いために 1 バイトの容量に収まる可能性があります!?)。これは、各文字を 1 バイトに収まるように圧縮する方法です。
これは正しいアプローチですか?はいの場合、文字列内の文字の言語を検出するにはどうすればよいですか?