問題タブ [urdu]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
unicode - 入力中にckeditorで筆記体表示を強制する方法
ユーザーがウルドゥー語のテキストを入力できるようにするために、ckeditor を使用しています。アラビア語と同様に、ウルドゥー語は筆記体であり、結合すると異なる合字を使用します。
私は使用しています
傍受するイベント
を使用して置き換えます
関数。
たとえば、ユーザーが L と A を入力した場合、それをウルドゥー語に置き換えます。
と
入力後、これらは両方とも、互いに分離した別個の文字として表示されます。スペースを押すか、Enter を押しても、どちらもそのまま残ります。しかし、それらを適切な同等の合字 ﻻ に置き換えてほしいと思います。これは、このUnicode チャートでは FEFB です。
ソース ビューに切り替えると、ckeditor がこれを自動的に修正することがわかります。そこでは、ブロックの内側に<p>
、バラバラのバラバラの文字がすでに適切な筆記体の合字に置き換えられていることが示されています。そして、ソースビューから戻ってもそのままです。しかし、これが発生する原因が何であれ、入力中にそれを発生させるにはどうすればよいですか?
画像も添付。
python-2.7 - nltkなしでウルドゥー語データコーパスPythonをきれいにする方法
私はウルドゥー語で 10000 語以上のコーパスを持っています。今私が欲しいのは、データをきれいにすることです。テキストに「!؟ـ،」のような特殊な Uni コード データが表示されます。正規表現を使用すると、データがエンコードされた形式ではないというエラーが表示されます。私のデータをきれいにするための助けを私に提供してください。ありがとうございました
ここに私のサンプルデータがあります:
続きを読む
いいえ
続きを読む
あいにゃん
ぐっちょ
正しく
ね
ダーシジック
アワー
パーシージー
ワルロガ
ガウ
アスマンノガ
にゃん
お気に入り
オハイオ州
ہے۔
ダシャシガシ
ウォーリー