問題タブ [unicode-normalization]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
unicode - インデックス作成のための Unicode データの正規化 (マルチバイト言語の場合): これを行う製品は? Lucene/Hadoop/Solr はありますか?
インデックスを作成して検索する必要があるドキュメント、電子メール メッセージなどをいくつか (100 万以上) 持っています。各ドキュメントには異なるエンコーディングが含まれている可能性があります。
これを適切に行うには、どの製品 (または製品の構成) を学び、理解する必要がありますか?
私の最初の推測は Lucene ベースのものですが、これは私が学んでいる最中のものです。私の主な望みは、検索フロント エンドを同時に構築できるように、時間のかかるエンコード プロセスをできるだけ早く開始することです。これには、2 バイト文字の何らかの正規化が必要になる場合があります。
どんな助けでも大歓迎です。
unicode - すべての「文字」が1つのコードポイントにすぎないUnicodeのエンコーディングはありますか?
言い換えようとしている: すべての結合文字の組み合わせを 1 つのコード ポイントにマップできますか?
私は Unicode を初めて使用しますが、Unicode ではあらゆる場合に 1 つの文字が 1 つのコード ポイントになるエンコーディング、正規化、または表現がないように思えます。これは正しいです?
これは Basic Multilingual Plane にも当てはまりますか?
c# - アラビア語の問題أًをاだけに置き換えます
アルフベルタンイーンを通常のアルフに交換する方法
python - Pythonですべての日本語のひらがなをカタカナに変換するにはどうすればよいですか?
ひらがなとカタカナのチャートから、日本語のテキストをひらがなまたはカタカナに「正規化」できるはずです。テーブルを作成し、検索/置換用の辞書/正規表現テーブルを実装するのは非常に簡単です。すでに作業が完了した場所を知っている人はいますか?
c++ - C/C++ での Unicode 文字列の正規化
C/C++ で文字列 (utf-8/utf-16 を含む) を正規化する方法を知りたいです。.NET には、関数String.Normalizeがあります。
以前は UTF8-CPP を使っていましたが、そのような機能はありません。 ICUと Qt は文字列の正規化を提供しますが、私は軽量のソリューションを好みます。
これに対する「軽量」ソリューションはありますか?
php - アクセントを削除するためのphpiconv音訳:例外として機能していませんか?
この単純なコードを考えてみましょう。
印刷します
ただの代わりに
私が間違っていることを知っていますか?
setlocaleを追加しても何も変わりません
unicode - ユーザーの期待とユニコードの正規化
これは少しソフトな質問です。これに適した場所があれば、遠慮なく教えてください。
国際文字を必要とするパスワードを受け入れるコードを開発しているので、入力された Unicode 文字列と保存されている Unicode 文字列を比較する必要があります。簡単です。
私の質問はこれです - 国際文字セットのユーザーは一般的にそのような場合に正規化を期待しますか? 私の Google 検索では、「常に行う」(http://unicode.org/faq/normalization.html) から「気にしない」まで、いくつかの意見の対立が見られます。正規化しないことの長所/短所はありますか? (つまり、パスワードを推測する可能性が低くなるなど)
forms - どちらがより良いUnicode正規化フォームですか?
Dreamweaverには、C、D、KC、KDの4つのオプションがあります。どちらを選ぶべきですか、そしてその理由は何ですか?
html - テキストの実行はUnicode正規化フォームCではありません
サイトを検証しようとすると、次のエラーが発生します。
テキストの実行はUnicode正規化フォームCではありません
A:それはどういう意味ですか?
B:notepad ++で修正できますか?
C:Bが「いいえ」の場合、無料のツール(dreamweaverではない)でこれを修正するにはどうすればよいですか?
mapping - テキストを Unicode から ASCII に変換する方法はありますか?
私が必要としているのは、ASCII 文字ごとに、同等の Unicode 文字のリストのようなものです。
問題は、Microsoft Excel や Word などのプログラムが、ドキュメントに入力するときに非 ASCII の二重引用符、単一引用符、ダッシュなどを挿入することです。このテキストを、半角文字を必要とする「varchar」型のデータベース フィールドに格納したいと考えています。
ASCII (シングルバイト) テキストを格納するために、これらの Unicode 文字の一部は、特定の ASCII 文字と同等または類似していると見なされる可能性があるため、Unicode 文字を同等の ASCII 文字に置き換えても問題ありません。
Unicode テキストを同等の ASCII 文字に変換する MapToASCII のような単純な関数が必要です。これにより、ASCII 文字に似ていない Unicode 文字の置換文字を指定できます。