残念ながら、分類子の背後にある理論についての私の理解は深くありません。私の質問があなたにとって素朴に見えたら、すみません。
目標: 与えられた任意のテキストを、年齢層、つまり読みやすさに応じて分類します。したがって、私のクラスは(簡略化して)次のような年齢層になります。理想的には、各テキスト ドキュメントは、(最も可能性の高いクラスだけでなく) 各クラスの確率を取得する必要があります。
現在の状態: 機能エクストラクタが配置されています。テキストドキュメントごとに特徴ベクトルを出力します。約30の特徴があり、ほとんどすべてが数値であり、そのうちの2つは名目上の特徴です。Weka でモデルをトレーニングする実験を行っています。今のところ、weka に含まれる SMO svm を使用して、グリッド検索で最適化しています。libSVM を使用することもできますが、これは今のところ重要ではありません。
質問:
- このタスクに別の分類子を使用しますか?特に、クラスごとの確率で目的の出力を作成しますか?
- トレーニング データは、このようにばらばらな範囲に分割されていません。これらの範囲は重複する場合があります。一部のテキストは (手動で) 10 ~ 12 の範囲に分類され、別のソースからは 11 ~ 13 または 8 ~ 13 などに分類されます。これをどのように処理しますか? フィルタリング/トレーニングを変更しますか? それらを変更するのではなく、結果を別の方法で解釈しますか?