6

段落を単語に分割しようとしています。私は素敵な nltk.tokenize.word_tokenize(sent) を手元に持っていますが、help(word_tokenize) は、「このトークナイザーは、一度に 1 つの文で動作するように設計されています」と言っています。

代わりに、パラグラフ、つまり最大 5 文で使用するとどうなるか知っている人はいますか? 私は自分でいくつかの短い段落で試してみましたが、うまくいくようですが、決定的な証拠にはなりません.

4

2 に答える 2