-4

私はNLTkと python にあまり詳しくありません。プログラムで次のタスクを実行する必要があります。

  1. 入力テキストをトークン化して小文字にする1
  2. 入力テキストをトークン化する2
  3. 入力テキスト内のすべてのトライグラムを見つける1

誰でも私を助けることができますか?

4

3 に答える 3

-1

すべてのトライグラムを見つけようとしている例がない場合は、最初にそれをトークン化する必要があります

>>> import nltk
>>> from nltk import word_tokenize
>>> from nltk.util import ngrams
>>> text1 = "Hi How are you? i am fine and you"
>>> token=nltk.word_tokenize(text1)    #tokenize your text 
>>> tttt=nltk.word_tokenize(text.lower())  #tokenize your text and make it lowercase in onestep
>>> tttt
['hi', 'how', 'are', 'you', '?', 'i', 'am', 'fine', 'and', 'you']

>>> trigrams=ngrams(token,3)          # find all the trigram in text1
>>> trigrams
[('Hi', 'How', 'are'), ('How', 'are', 'you'), ('are', 'you', '?'), ('you', '?', 'i'), ('?', 'i', 'am'), ('i', 'am', 'fine'), ('am', 'fine', 'and'), ('fine', 'and', 'you')]

トークナイズステップを適用するだけでいいテキスト2の作成について

于 2014-06-22T01:35:28.957 に答える