java - 可読性分類器のどのアプローチ

Question

残念ながら、分類子の背後にある理論についての私の理解は深くありません。私の質問があなたにとって素朴に見えたら、すみません。

目標: 与えられた任意のテキストを、年齢層、つまり読みやすさに応じて分類します。したがって、私のクラスは（簡略化して）次のような年齢層になります。理想的には、各テキストドキュメントは、(最も可能性の高いクラスだけでなく) 各クラスの確率を取得する必要があります。

現在の状態: 機能エクストラクタが配置されています。テキストドキュメントごとに特徴ベクトルを出力します。約30の特徴があり、ほとんどすべてが数値であり、そのうちの2つは名目上の特徴です。Weka でモデルをトレーニングする実験を行っています。今のところ、weka に含まれる SMO svm を使用して、グリッド検索で最適化しています。libSVM を使用することもできますが、これは今のところ重要ではありません。

質問:

このタスクに別の分類子を使用しますか?特に、クラスごとの確率で目的の出力を作成しますか?
トレーニングデータは、このようにばらばらな範囲に分割されていません。これらの範囲は重複する場合があります。一部のテキストは (手動で) 10 ～ 12 の範囲に分類され、別のソースからは 11 ～ 13 または 8 ～ 13 などに分類されます。これをどのように処理しますか? フィルタリング/トレーニングを変更しますか? それらを変更するのではなく、結果を別の方法で解釈しますか?

score 1 · Accepted Answer

分類の代わりに回帰を試すことができます。基本的には、各ドキュメントを読むための「理想的な」年齢を予測しようとします。

これにより、さまざまな年齢層に対応できるようになりますが、クラスを表す方法は完全には明確ではありません。おそらく平均を取ることから始めるので、8〜12の場合、正解は10などになります（そして、「大人」の値は少し）。

私の推測では、それはモデルのよりロバストな推定につながる可能性があり、結果はうまく解釈できる可能性があります-たとえば、8-12と12-15の例がたくさんあり、アルゴリズムが11.9を予測する場合、次のように言うことができますこれは、8〜12の範囲では「ほとんど」理解できません。

java - 可読性分類器のどのアプローチ

1 に答える 1

Related

Reference