1

各単語の品詞が単語の後に定義されるように、教授によって処理された 20,000 ツイートのデータ セットがあります... この投稿のタグ付けは、Penn Treebank プロジェクトからのものです。ここにいくつかの例文があります:

+ 1005//CD I//PRP have//VBP to//TO second//JJ the//DT Garnier//NNP Fructis//NNP Brilliant//NNP Shine//NNP Wax//NNP .//. 
+ 1006//CD it//PRP is/be/VBZ everything//NN I//PRP have//VBP ever//RB wanted/want/VBD in//IN a//DT gel//NN .//. 
= 1007//CD TITLETITLE//NNP KelseysATrick//NNP ://: I//PRP miss//VBP my//PRP$ Pantene//NNP Pro-V//NNP ,//, 
+ 1008//CD KelseysATrick//NNP ://: I//PRP miss//VBP my//PRP$ Pantene//NNP Pro-V//NNP brunette//JJ expressions/expression/NNS shampoo//NN and//CC conditioner//NN .//. 
+ 1009//CD It//PRP made/make/VBD my//PRP$ hair//NN happier/happy/JJR than//IN this//DT Herbal//NNP Essence//NNP crap//NN .//. 
= 1010//CD TITLETITLE//NNP Best/Good/JJS CO//NNP Washing//NNP Conditioner//NNP ?//. Weaves/Weave/NNP and//CC non//FW weaves/weave/NNS 
+ 1011//CD Originally//RB posted/post/VBD by//IN CarmenKay//NNP I//PRP am/be/VBP in//IN love//NN with//IN the//DT Dove//NN conditioner//NN in//IN the//DT blue//JJ bottle//NN it//PRP always//RB works/work/VBZ wonders/wonder/NNS for//IN me//PRP !//. 
= 1012//CD ditto//NN 

最初の文字は文の分類であり、文内の各単語にはその位置がタグ付けされています。

Weka には、データを読み込むときに pos 解析機能がありますか? 今のところ、pos タグを取り除いて利用していませんが、分類器の精度を高めるのに非常に役立つと思います。

ありがとう!

4

0 に答える 0