私はNLTK word_tokenizer
を使用して文を単語に分割しています。
この文をトークン化したい:
في_بيتنا كل شي لما تحتاجه يضيع ...ادور على شاحن فجأة يختفي ..لدرجة اني اسوي نفسي ادور شيء
私が書いているコードは次のとおりです。
import re
import nltk
lex = u" في_بيتنا كل شي لما تحتاجه يضيع ...ادور على شاحن فجأة يختفي ..لدرجة اني اسوي نفسي ادور شيء"
wordsArray = nltk.word_tokenize(lex)
print " ".join(wordsArray)
問題は、word_tokenize
関数が単語で分割されないことです。代わりに、文字で分割され、出力は次のようになります。
"ف ي _ ب ي ت ن ا ك ل ش ي ل م ا ت ح ت ا ج ه ي ض ي ع ... ا د و ر ع ل ى ش ا ح ن ف ج أ ة ي خ ت ف ي .. ل د ر ج ة ا ن ي ا س و ي ن ف س ي ا د و ر ش ي ء"
何か案は ?
私がこれまでに到達したこと:
ここのテキストを試してみると、文字でトークン化されているように見えました。ただし、他のトークナイザーが正しくトークン化しました。word_tokenize
それは英語専用という意味ですか?それはほとんどのNLTK機能に当てはまりますか?