Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
段落を単語に分割しようとしています。私は素敵な nltk.tokenize.word_tokenize(sent) を手元に持っていますが、help(word_tokenize) は、「このトークナイザーは、一度に 1 つの文で動作するように設計されています」と言っています。
代わりに、パラグラフ、つまり最大 5 文で使用するとどうなるか知っている人はいますか? 私は自分でいくつかの短い段落で試してみましたが、うまくいくようですが、決定的な証拠にはなりません.