0

残念ながら、分類子の背後にある理論についての私の理解は深くありません。私の質問があなたにとって素朴に見えたら、すみません。

目標: 与えられた任意のテキストを、年齢層、つまり読みやすさに応じて分類します。したがって、私のクラスは(簡略化して)次のような年齢層になります。理想的には、各テキスト ドキュメントは、(最も可能性の高いクラスだけでなく) 各クラスの確率を取得する必要があります。

現在の状態: 機能エクストラクタが配置されています。テキストドキュメントごとに特徴ベクトルを出力します。約30の特徴があり、ほとんどすべてが数値であり、そのうちの2つは名目上の特徴です。Weka でモデルをトレーニングする実験を行っています。今のところ、weka に含まれる SMO svm を使用して、グリッド検索で最適化しています。libSVM を使用することもできますが、これは今のところ重要ではありません。

質問:

  1. このタスクに別の分類子を使用しますか?特に、クラスごとの確率で目的の出力を作成しますか?
  2. トレーニング データは、このようにばらばらな範囲に分割されていません。これらの範囲は重複する場合があります。一部のテキストは (手動で) 10 ~ 12 の範囲に分類され、別のソースからは 11 ~ 13 または 8 ~ 13 などに分類されます。これをどのように処理しますか? フィルタリング/トレーニングを変更しますか? それらを変更するのではなく、結果を別の方法で解釈しますか?
4

1 に答える 1

1

分類の代わりに回帰を試すことができます。基本的には、各ドキュメントを読むための「理想的な」年齢を予測しようとします。

これにより、さまざまな年齢層に対応できるようになりますが、クラスを表す方法は完全には明確ではありません。おそらく平均を取ることから始めるので、8〜12の場合、正解は10などになります(そして、 「大人」の値は少し)。

私の推測では、それはモデルのよりロバストな推定につながる可能性があり、結果はうまく解釈できる可能性があります-たとえば、8-12と12-15の例がたくさんあり、アルゴリズムが11.9を予測する場合、次のように言うことができますこれは、8〜12の範囲では「ほとんど」理解できません。

于 2012-11-25T15:49:24.983 に答える