118

あなたの経験では、BMP (Basic Multilingual Plane) の外側の Unicode 文字、コードポイント、範囲はこれまでで最も一般的ですか? これらは、UTF-8 で 4 バイト、または UTF-16 でサロゲートを必要とするものです。

その答えは、名前に使われている中国語と日本語の文字であると予想していましたが、最も広く普及している CJK マルチバイト文字セットには含まれていませんでしたが、私が最も取り組んでいるプロジェクトである英語ウィクショナリーでは、ゴシック アルファベットがこれまでのところはるかに一般的です。

アップデート

ウィキペディア全体をスキャンして非 BMP 文字を検出するソフトウェア ツールをいくつか作成しましたが、驚いたことに、日本語のウィキペディアでもゴシック体が最も一般的であることがわかりました。これは中国語のウィキペディアにも当てはまりますが、「」、「」、「」など、多くの漢字が 50 回または 70 回使用されていました。

4

3 に答える 3

68

素晴らしい質問です!

答えは数学の文字です。昨年の 12 月、私は PubMed オープン アクセス コーパス全体をスキャンし、その中のアストラル キャラクターについてこれらの図を思いつきました。

以下の図の最初の数字は、コーパス全体で見つかった各コード ポイントのコピー数です。まず、相対頻度についての概念を示すために、そのコーパスのトランス ASCII コード ポイントのトップ 10 を次に示します。

 2663710 U+002013 ‹–›  GC=Pd    EN DASH
 1065594 U+0000A0 ‹ ›  GC=Zs    NO-BREAK SPACE
 1009762 U+0000B1 ‹±›  GC=Sm    PLUS-MINUS SIGN
  784139 U+002212 ‹−›  GC=Sm    MINUS SIGN
  602377 U+002003 ‹ ›  GC=Zs    EM SPACE
  528576 U+0003BC ‹μ›  GC=Ll    GREEK SMALL LETTER MU
  519669 U+0003B2 ‹β›  GC=Ll    GREEK SMALL LETTER BETA
  512312 U+0003B1 ‹α›  GC=Ll    GREEK SMALL LETTER ALPHA
  491842 U+00200A ‹ ›  GC=Zs    HAIR SPACE
  462505 U+0000B0 ‹°›  GC=So    DEGREE SIGN

そして、トランス BMP コード ポイントを周波数の降順で示します。

     544 U+01D49E ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL C
     450 U+01D4AF ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL T
     385 U+01D4AE ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL S
     292 U+01D49F ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL D
     285 U+01D4B3 ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL X
     262 U+01D4A9 ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL N
     258 U+01D4AB ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL P
     254 U+01D4A2 ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL G
     185 U+01D49C ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL A
     178 U+01D53C ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL E
     137 U+01D4AA ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL O
      56 U+01D4A5 ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL J
      48 U+01D4A6 ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL K
      44 U+01D4B1 ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL V
      43 U+01D4B2 ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL W
      42 U+01D4B4 ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL Y
      41 U+01D4B5 ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL Z
      35 U+01D4B0 ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL U
      30 U+01D4AC ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL Q
      23 U+01D54A ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL S
      21 U+01D539 ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL B
      19 U+01D5A7 ‹›  GC=Lu    MATHEMATICAL SANS-SERIF CAPITAL H
      18 U+01D517 ‹›  GC=Lu    MATHEMATICAL FRAKTUR CAPITAL T
      15 U+01D4C3 ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL N
      14 U+01D535 ‹›  GC=Ll    MATHEMATICAL FRAKTUR SMALL X
      13 U+01D4BF ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL J
      11 U+01D540 ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL I
       9 U+01D465 ‹›  GC=Ll    MATHEMATICAL ITALIC SMALL X
       9 U+01D4CE ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL Y
       9 U+01D538 ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL A
       8 U+01D4C2 ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL M
       8 U+01D54D ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL V
       7 U+01D4B6 ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL A
       7 U+01D4BE ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL I
       7 U+01D4CC ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL W
       7 U+01D516 ‹›  GC=Lu    MATHEMATICAL FRAKTUR CAPITAL S
       7 U+01D4BE ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL I
       7 U+01D4CC ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL W
       7 U+01D516 ‹›  GC=Lu    MATHEMATICAL FRAKTUR CAPITAL S
       4 U+01D4CF ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL Z
       4 U+01D53B ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL D
       4 U+01D54B ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL T
       3 U+01D4BB ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL F
       3 U+01D4CA ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL U
       3 U+01D507 ‹›  GC=Lu    MATHEMATICAL FRAKTUR CAPITAL D
       3 U+01D542 ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL K
       3 U+01D546 ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL O
       2 U+01D4BD ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL H
       2 U+01D4C5 ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL P
       2 U+01D505 ‹›  GC=Lu    MATHEMATICAL FRAKTUR CAPITAL B
       2 U+01D50E ‹›  GC=Lu    MATHEMATICAL FRAKTUR CAPITAL K
       2 U+01D541 ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL J
       2 U+01D543 ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL L
       2 U+100002 ‹›  GC=Co    <private use character>
       1 U+01D4B8 ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL C
       1 U+01D4C1 ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL L
       1 U+01D53D ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL F
       1 U+01D53E ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL G
       1 U+01D54C ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL U
       1 U+01D6A4 ‹›  GC=Ll    MATHEMATICAL ITALIC SMALL DOTLESS I
       1 U+01D7D9 ‹›  GC=Nd    MATHEMATICAL DOUBLE-STRUCK DIGIT ONE

彼らが U+ 100002を使って何をしていたのか知​​りたいです。:(

これらがブラウザに表示されない場合は、George Douros の Symbola フォントまたは別のミラー フォントをdowload にインストールする必要があります。また、楽しい Unicode 6.0.0 コード ポイントもすべて含まれています。

于 2011-04-07T01:43:14.527 に答える
9

私にとっては、Cambria Math などの OpenType フォントを使用した数学の組版に使用される数学用英数字記号です。

于 2011-04-06T14:32:31.387 に答える