“unicode-normalization”の関連問題_Stack Overflow日本語サイト

0 投票する

7 に答える

20374 参照

php - 正規化されたUTF-8とは何ですか？

ICUプロジェクト（現在はPHPライブラリもあります）には、検索時に値を比較しやすくするためにUTF-8文字列を正規化するために必要なクラスが含まれています。

しかし、私はこれがアプリケーションにとって何を意味するのかを理解しようとしています。たとえば、「互換性の同等性」ではなく「標準的な同等性」が必要な場合、またはその逆の場合はどうなりますか？

php c unicode unicode-normalization

2011-10-28T15:14:20.873

0 投票する

5 に答える

501 参照

c++ - UTF8 は単射マッピングですか?

アプリケーションを作成し、C++これを知る必要があります。

テキストのエンコードはUTF8、バイトから文字への単射写像ですか?つまり、すべての文字 (文字...) は一方向でのみエンコードされますか? したがって、たとえば文字「Ž」は、たとえば 3231 と 32119 の両方としてエンコードすることはできません。

c++c unicode utf-8 unicode-normalization

2011-11-13T20:53:03.027

0 投票する

2 に答える

3643 参照

php - PHP で W3C に従って Unicode を正規化する

W3C バリデーターで Web サイトの HTML コードを検証しているときに、次の警告が表示されました。

PHP 5.3.x で開発しているので、Normalizerクラスを使用できます。

これを修正するにはNormalizer::normalize($output)、ユーザーが行った入力 (コメントなど) を表示するときに使用する必要Normalizer::normalize($input)がありますか?それとも、ユーザー入力をデータベースに保存する前に使用する必要がありますか?

tl;dr:ユーザー入力をデータベースに保存する前、または表示するときにUnicode 正規化を使用する必要がありますか?

php unicode normalization web-standards unicode-normalization

2012-01-07T01:52:39.023

0 投票する

1 に答える

630 参照

.net - Unicode文字列を正規化して、その正規表現を取得します

たとえば、（1つのUnicode文字）を（2つのUnicode文字、つまり、組み合わせのアクサングラーブ（U + 0300）の後にa）"à"としてエンコードすることもできるとすると、.NETには、文字列を正規化して後者が"\u0300a"前者に変換しましたか？

前者は標準的な表現と見なされていると思います。私の特定の問題は、後者が一部のブラウザで正しく表示されない場合を見たことですが、これは他のシナリオでも役立つ可能性があります。

.net unicode normalization diacritics unicode-normalization

2012-01-10T23:53:57.210

0 投票する

1 に答える

4666 参照

php - PHP 5.3がnormalizer_normalize（）を見つけることができません

PHP 5.3で導入されたnormalizer_normalize（）関数（ドキュメントによると）を使用しようとしていますが、使用できません。

PHPのバージョンを確認しましたが、5.3です。

PHPがそれを見つけられない理由がわかりませんか？

php unicode normalization php-5.3 unicode-normalization

2012-01-21T00:32:37.240

0 投票する

4 に答える

3033 参照

php - PHP と MySQL で、スマートクォートをデータベースに正しく書き込むにはどうすればよいですか?

CLEditor リッチテキストコントロールを含む PHP Web サイトがあります。ユーロと英国ポンドをデータベースに書き込もうとすると、含まれているページの HTML、リッチテキストコントロールの IFRAME HTML、および MySQL テーブル照合で文字セットが UTF-8 に設定されているため、文字は正常に処理されます。その面ではすべて順調です。ただし、 smart quotesを書き込もうとすると、データベースに次の出力が表示されます。

(ブラウザで上記が正しく表示されない場合、テスト単語には、単語の前にラテン語の a、ユーロ記号、および小さな AE 記号があり、その後にラテン語の a とユーロ記号が表示されます。 )

PHP を使用してその値をデータベースから読み込んでページに表示すると、他のラテン文字と同様に疑問符が付いた黒いひし形になります。

これを修正するにはどうすればよいですか?

php mysql utf-8 unicode-normalization cleditor

2012-01-22T19:46:13.760

0 投票する

3 に答える

1663 参照

c++ - 標準的なUnicode文字列形式

たとえば、としてエンコードされたUnicode文字列がありますUTF8。Unicodeの1つの文字列は、数バイトの表現を持つことができます。Unicode文字列の正規の（正規化された）形式が存在するか、作成できるのでしょうか。たとえば、そのような文字列をmemcmp(3)などと比較できます。たとえば、ICUや他のC/C++ライブラリでそれを実行できますか？

c++c unicode collation unicode-normalization

2012-01-23T12:54:08.637

0 投票する

5 に答える

7363 参照

python - PythonでUnicodeテキストをファイル名などに正規化する

Python で国際的な Unicode テキストを安全な ID とファイル名に正規化するためのスタンドアロンのソリューションはありますか?

たとえばMy International Text: åäö、my-international-text-aao

plone.i18nは本当に良い仕事をしますが、残念ながらそれはや他のいくつかのパッケージに依存してzope.securityおりzope.publisher、脆弱な依存関係になっています。

plone.i18n が適用するいくつかの操作

python unicode plone normalization unicode-normalization

2012-01-28T02:46:27.703

0 投票する

1 に答える

2140 参照

regex - Unicodeの数字の下付き文字または上付き文字を普通の数字に置き換えます

regex perl unicode superscript unicode-normalization

2012-02-29T17:12:56.567

0 投票する

2 に答える

2028 参照

java - Javaでutf-8に変換する

文字列が\u0130smailあり、それをİsmailに変換して変換したい

私は試した

動作しましたが、DBまたはインターネットから文字列を取得すると"\u0130smail"、正しい結果が得られません。

どちらも機能しませんでした。

java unicode utf-8 normalization unicode-normalization

2012-03-08T15:14:16.633

問題タブ [unicode-normalization]

Reference