“unicode-normalization”の関連問題_Stack Overflow日本語サイト

0 投票する

4 に答える

1266 参照

unicode - インデックス作成のための Unicode データの正規化 (マルチバイト言語の場合): これを行う製品は? Lucene/Hadoop/Solr はありますか?

インデックスを作成して検索する必要があるドキュメント、電子メールメッセージなどをいくつか (100 万以上) 持っています。各ドキュメントには異なるエンコーディングが含まれている可能性があります。

これを適切に行うには、どの製品 (または製品の構成) を学び、理解する必要がありますか?

私の最初の推測は Lucene ベースのものですが、これは私が学んでいる最中のものです。私の主な望みは、検索フロントエンドを同時に構築できるように、時間のかかるエンコードプロセスをできるだけ早く開始することです。これには、2 バイト文字の何らかの正規化が必要になる場合があります。

どんな助けでも大歓迎です。

2010-11-20T03:40:32.510

0 投票する

3 に答える

308 参照

unicode - すべての「文字」が1つのコードポイントにすぎないUnicodeのエンコーディングはありますか?

言い換えようとしている: すべての結合文字の組み合わせを 1 つのコードポイントにマップできますか?

私は Unicode を初めて使用しますが、Unicode ではあらゆる場合に 1 つの文字が 1 つのコードポイントになるエンコーディング、正規化、または表現がないように思えます。これは正しいです？

これは Basic Multilingual Plane にも当てはまりますか?

unicode normalization utf-16 unicode-normalization surrogate-pairs

2011-01-05T19:36:27.330

0 投票する

3 に答える

2036 参照

c# - アラビア語の問題أًをاだけに置き換えます

アルフベルタンイーンを通常のアルフに交換する方法

c#regex unicode normalization unicode-normalization

2011-01-13T16:07:02.030

0 投票する

2 に答える

4998 参照

python - Pythonですべての日本語のひらがなをカタカナに変換するにはどうすればよいですか?

ひらがなとカタカナのチャートから、日本語のテキストをひらがなまたはカタカナに「正規化」できるはずです。テーブルを作成し、検索/置換用の辞書/正規表現テーブルを実装するのは非常に簡単です。すでに作業が完了した場所を知っている人はいますか?

python unicode normalization unicode-normalization

2011-02-02T16:40:25.837

0 投票する

5 に答える

11980 参照

c++ - C/C++ での Unicode 文字列の正規化

C/C++ で文字列 (utf-8/utf-16 を含む) を正規化する方法を知りたいです。.NET には、関数String.Normalizeがあります。

以前は UTF8-CPP を使っていましたが、そのような機能はありません。 ICUと Qt は文字列の正規化を提供しますが、私は軽量のソリューションを好みます。

これに対する「軽量」ソリューションはありますか？

c++unicode utf-8 utf-16 unicode-normalization

2011-02-03T10:18:21.210

0 投票する

7 に答える

22903 参照

php - アクセントを削除するためのphpiconv音訳：例外として機能していませんか？

この単純なコードを考えてみましょう。

印刷します

ただの代わりに

私が間違っていることを知っていますか？

setlocaleを追加しても何も変わりません

php string unicode utf-8 unicode-normalization

2011-02-06T00:14:14.613

0 投票する

2 に答える

329 参照

unicode - ユーザーの期待とユニコードの正規化

これは少しソフトな質問です。これに適した場所があれば、遠慮なく教えてください。

国際文字を必要とするパスワードを受け入れるコードを開発しているので、入力された Unicode 文字列と保存されている Unicode 文字列を比較する必要があります。簡単です。

私の質問はこれです - 国際文字セットのユーザーは一般的にそのような場合に正規化を期待しますか? 私の Google 検索では、「常に行う」(http://unicode.org/faq/normalization.html) から「気にしない」まで、いくつかの意見の対立が見られます。正規化しないことの長所/短所はありますか? (つまり、パスワードを推測する可能性が低くなるなど)

unicode normalization user-experience unicode-normalization

2011-03-14T23:08:03.727

0 投票する

1 に答える

4306 参照

forms - どちらがより良いUnicode正規化フォームですか？

Dreamweaverには、C、D、KC、KDの4つのオプションがあります。どちらを選ぶべきですか、そしてその理由は何ですか？

forms normalization dreamweaver unicode-normalization

2011-03-22T10:43:00.170

0 投票する

2 に答える

22255 参照

html - テキストの実行はUnicode正規化フォームCではありません

サイトを検証しようとすると、次のエラーが発生します。

テキストの実行はUnicode正規化フォームCではありません

A：それはどういう意味ですか？

B：notepad ++で修正できますか？

C：Bが「いいえ」の場合、無料のツール（dreamweaverではない）でこれを修正するにはどうすればよいですか？

html validation unicode notepad++unicode-normalization

2011-03-28T21:15:27.767

0 投票する

2 に答える

2836 参照

mapping - テキストを Unicode から ASCII に変換する方法はありますか?

私が必要としているのは、ASCII 文字ごとに、同等の Unicode 文字のリストのようなものです。

問題は、Microsoft Excel や Word などのプログラムが、ドキュメントに入力するときに非 ASCII の二重引用符、単一引用符、ダッシュなどを挿入することです。このテキストを、半角文字を必要とする「varchar」型のデータベースフィールドに格納したいと考えています。

ASCII (シングルバイト) テキストを格納するために、これらの Unicode 文字の一部は、特定の ASCII 文字と同等または類似していると見なされる可能性があるため、Unicode 文字を同等の ASCII 文字に置き換えても問題ありません。

Unicode テキストを同等の ASCII 文字に変換する MapToASCII のような単純な関数が必要です。これにより、ASCII 文字に似ていない Unicode 文字の置換文字を指定できます。

mapping ascii special-characters varchar unicode-normalization

2011-04-13T14:45:48.500

問題タブ [unicode-normalization]

Reference