新聞記事で一般的に見られるような、通常は書面で使用されるUnicode文字のサブセットは何ですか?
たとえば、英語では、[a-zA-Z0-9]の範囲の文字といくつかの句読文字で、ほとんどの書き込みに十分です。
ただし、非印刷文字や装飾文字を除外して、ASCII範囲外の文字を使用する言語をサポートしたいと思います。
目的は、アプリケーションへのユーザー入力を、書記言語で合法的に使用されているコードポイントに制限することです。ユーザー入力が保存および表示されるため、発音区別符号、Unicode結合文字、Unicodeフロー制御文字などで完全に構成されるテキストをいたずら者が入力できるようにしたくありません。
残念ながら、私はUnicodeにあるすべての言語に堪能ではありません。誰かが通常書面で使用されるUnicode文字のサブセットのすべてのリストを編集しましたか?