入力がどの自然言語に属しているかを特定する必要があります。目標は、混合入力でアラビア語と英語の単語を区別することです。入力は Unicode であり、XML テキスト ノードから抽出されます。クラスに気づきましたCharacter.UnicodeBlock。それは私の問題に関連していますか?どうすれば動作させることができますか?
編集:
このアプローチはアラビア語には役立ちましたが、 Unicode ブロックは文字だけでなく記号や印刷不可能な文字もカバーしてCharacter.UnicodeBlockいるため、英語 (または他のヨーロッパ言語) には適していないようです。そのため、代わりに正規表現を使用してオブジェクトのメソッドをBASIC_LATIN使用しています。私はそれで暮らすことができますが、おそらく誰かがより良い/より速い方法を提案することができます.matches()String"[A-Za-z]+"