私はこのようなテキストを持っています:
এরজন্যবুদ্ধির(理由)প্রয়োজননেই、প্রই
言語はベンガル語です(もちろん1つの英語の単語は別として)。
テキスト内のベンガル語のリストを取得したい(つまり、単語のトークン化の問題)。ベンガル語のUnicode範囲は0980〜09FFです。\ p {Bengali}スクリプトもあります(使用方法がわかりません)。これが私が持っているものです:
import re
Pattern = re.compile(r'\[\u0980-\u09FF]+')
Words = split(Pattern, Text)
これは機能していません。どうすればこれを機能させることができますか?また、可能であれば、明示的なUnicode範囲ではなく、\p{Bengali}を使用することをお勧めします。