Unicode (非英数字) の一部を考慮から除外する機会はありますか? 発音記号を含むアラビア語の単語をトークン化していますが、これは英数字以外の文字と見なされますが、それらを削除したくなく、英数字以外の文字 (発音記号以外) と英数字の間にスペースを入れる必要があります..これは正規表現を使用してですか?分音記号を表す除外したい Unicode は次のとおりです。 u'\u0651'、u'\u0652'
それは可能ですか?
よろしくお願いします
Unicode (非英数字) の一部を考慮から除外する機会はありますか? 発音記号を含むアラビア語の単語をトークン化していますが、これは英数字以外の文字と見なされますが、それらを削除したくなく、英数字以外の文字 (発音記号以外) と英数字の間にスペースを入れる必要があります..これは正規表現を使用してですか?分音記号を表す除外したい Unicode は次のとおりです。 u'\u0651'、u'\u0652'
それは可能ですか?
よろしくお願いします