wekaとnaivebayes分類器を使用していくつかのWeb投稿を分類しようとしています。
まず、多くの投稿(約100件のネガティブと100件のポジティブ)を手動で分類し、次の形式で.arffファイルを作成しました。
@relation classtest
@attribute 'post' string
@attribute 'class' {positive,negative}
@data
'RT @burnreporter: Google has now indexed over 30 trillion URLs. Wow. #LeWeb',positive
'A special one for me Soundcloud at #LeWeb ',positive
'RT @dianaurban: Lost Internet for 1/2 hour at a conference called #LeWeb. Ironic, yes?',negative
.
.
.
次に、 Weka Explorerを開いてそのファイルを読み込み、StringToWordVector
フィルターを適用して投稿を1つの単語の属性に分割します。
次に、データセットで同じことを行い、(wekaの[分類]タブで)naive bayes
分類子を選択し、[テストセットの選択]を選択すると、が返されますTrain and test set are not compatible
。私に何ができる?ありがとう!