7

ダリ語で使用nltk.word_tokenizeしています。問題は、1 つの単語の間にスペースがあることです。 たとえば、生命を意味する言葉。そして同じです。他にもたくさんの言葉があります。文字で終わるすべての単語は、スペースを空ける必要があります。それ以外の場合は、 のように組み合わせることができます。
"زنده گی""ه""زندهگی"

[tag:regex]ある単語の一部が終わる単語をトークン化しないでください。"ه"その後、文字が表示されます"گ "

4

1 に答える 1