python - NLTKで文字列文をトークン化するにはどうすればよいですか？

Question

私はnltkを使用しているので、nltk.booksのデフォルトのテキストと同じように独自のカスタムテキストを作成したいと思います。しかし、私はちょうど次のような方法に取り掛かった

my_text = ['This', 'is', 'my', 'text']

「テキスト」を次のように入力する方法を見つけたいと思います。

my_text = "This is my text, this is a nice way to input text."

pythonまたはnltkのどちらのメソッドを使用すると、これを実行できます。さらに重要なのは、句読記号をどのように閉じることができるかということです。

score 166 · Accepted Answer

これは実際にはnltk.orgのメインページにあります：

>>> import nltk
>>> sentence = """At eight o'clock on Thursday morning
... Arthur didn't feel very good."""
>>> tokens = nltk.word_tokenize(sentence)
>>> tokens
['At', 'eight', "o'clock", 'on', 'Thursday', 'morning',
'Arthur', 'did', "n't", 'feel', 'very', 'good', '.']

score -5 · Accepted Answer

@PavelAnossovが答えたように、正規の答えは、word_tokenizenltkの関数を使用します。

from nltk import word_tokenize
sent = "This is my text, this is a nice way to input text."
word_tokenize(sent)

あなたの文章が本当に十分に単純な場合：

セットを使用してstring.punctuation、句読点を削除してから、空白の区切り文字を使用して分割します。

import string
x = "This is my text, this is a nice way to input text."
y = "".join([i for i in x if not in string.punctuation]).split(" ")
print y

python - NLTKで文字列文をトークン化するにはどうすればよいですか？

2 に答える 2

Related

Reference