私の目標は、ランダムなテキストを取得し、文を抽出し、句読点を削除し、裸の文 (そのうちの 1 つ) で、NN または VB でタグ付けされた単語をメロニム、ホロニム、またはシノニム、および WordNet synset からの同様の単語。先には多くの作業がありますが、最初に問題があります。
このために、パターンと TextBlob パッケージを使用します。これは私がこれまでに行ったことです...
from pattern.web import URL, plaintext
from pattern.text import tokenize
from pattern.text.en import wordnet
from textblob import TextBlob
import string
s = URL('http://www.fangraphs.com/blogs/the-fringe-five-baseballs-most-compelling-fringe-prospects-35/#more-157570').download()
s = plaintext(s, keep=[])
secam = (tokenize(s, punctuation=""))
simica = secam[15].strip(string.punctuation)
simica = simica.replace(",", "")
simica = TextBlob(simica)
simicaTg = simica.words
synsimica = wordnet.synsets(simicaTg[3])[0]
djidja = synsimica.hyponyms()
これですべてが思いどおりに機能しますが、この変数から ie 下位名を抽出しようとするとdjidja
、それはオブジェクトであるため不可能であることがわかりSynset
、とにかくそれを操作することはできません。
ハイポニムリストで報告されているまさにその単語を抽出する方法はありますか(つまり、print(djidja[2])
表示されますSynset(u'bowler')
...だから'bowler'
、これからのみ抽出する方法はありますか)?