.net - .NET 文字列の内部形式は何ですか?

Question

私は C#.NET でかなり文字列操作を多用するコードを作成していて、少し前に読んだことを思い出した Joel Spolsky の記事に興味を持ちました。

http://www.joelonsoftware.com/articles/fog0000000319.html
http://www.joelonsoftware.com/articles/Unicode.html

では、.NET はどのようにそれを行うのでしょうか? 1文字あたり2バイト？それ以上の Unicode chars^H^H^H^H^H コードポイントがいくつか必要です。そして、長さはどのようにエンコードされますか?

score 17 · Accepted Answer

Jon Skeet が現れる前に、C#の文字列に関する彼の優れたブログへのリンクがあります。

少なくとも現在の実装では、文字列は 20+(n/2)*4 バイト (n/2 の値を切り捨て) を使用します。ここで、n は文字列内の文字数です。文字列型は、オブジェクト自体のサイズが異なるという点で珍しい

score 11 · Accepted Answer

.NET はUTF-16を使用します。

MSDN の System.Stringから:

「文字列内の各 Unicode 文字は、Unicode コードポイントまたは Unicode 文字の序数 (数値) 値とも呼ばれる Unicode スカラー値によって定義されます。各コードポイントは、UTF-16 エンコーディングを使用してエンコードされ、それぞれの数値エンコーディングの要素は Char オブジェクトで表されます。」

.net - .NET 文字列の内部形式は何ですか?

3 に答える 3

Related

Reference