15

アイテムiの評価 (1-5) を選択する分類子を作成しようとしています。各項目 iについて、 iに関する約 40 の異なる量を含むベクトルxがあります。また、各アイテムにゴールド スタンダードの評価を付けています。xのいくつかの関数に基づいて、分類子をトレーニングして、ゴールド スタンダードに厳密に一致する 1 ~ 5 の評価を与えたいと考えています。

私が見たクラシファイアに関する情報のほとんどは、バイナリ決定のみを扱っていますが、私は評価決定を行っています。この種の問題に対処するための一般的な手法やコード ライブラリはありますか?

4

5 に答える 5

10

応答変数が順序スケールにある ML 問題には特別な処理が必要であることに同意します。「マシンモード」(つまり、クラス ラベルを返す) は不十分に思えます。 、2番目、3番目"); 同様に、'regression-mode' (つまり、序数ラベルを float {1, 2, 3} として扱う) は、応答変数間の距離を無視するためです (例: 3 - 2 != 1)。

Rには (少なくとも) 序数回帰向けのパッケージがいくつかあります。これらの 1 つは実際にはOrdinalと呼ばれますが、私は使用していません。私は序数回帰のために R のデザインパッケージを使用しましたが、確かにそれをお勧めできます。Designには、順序ロジスティック モデルを介した順序回帰問題の解決、診断、テスト、および結果表示のための関数の完全なセットが含まれています。どちらのパッケージもCRANから入手できます) Design Package を使用した順序回帰問題の段階的な解決策は、UCLA 統計サイトに掲載されています。

また、私は最近、サポート ベクター マシンを使用した序数分類に取り組んでいる Yahoo のグループによる論文を見ました。私は彼らの技術を適用しようとはしていません。

于 2010-08-16T19:34:48.807 に答える
8

Wekaを使ってみましたか?すぐに使用できるバイナリ、数値、および名義属性をサポートしていますが、後者の 2 つは目的に応じて十分に機能する可能性があります。

さらに、利用可能な分類子の 1 つは、この調査の結果であるOrdinalClassClassifier.javaと呼ばれるメタ分類子のようです。

事前に作成されたアプローチが必要ない場合は、これらの参照 ( Yahoo SVM に関する doug のメモに加えて) が役立つ場合があります。

于 2010-08-17T15:15:13.997 に答える
3

生地が提起した問題はすべて有効です。もう一つ追加させてください。分類と「ゴールド スタンダード」との一致をどのように測定したいかについて、あなたは言いませんでした。次のステップに大きな影響を与えるため、できるだけ早くその質問に対する答えを策定する必要があります。私の経験では、最適化タスクの中で最も問題となる部分は、スコア関数です。すべての誤差が等しいかどうか自問してみてください。「3」を「4」と誤分類すると、「4」を「3」と分類するのと同じ影響がありますか? 「1」対「5」はどうでしょうか。誤って 1 つのケースを見逃すと、悲惨な結果を招く可能性があります (HIV 診断のミス、飛行機でのパイロットの退場の起動)。

カテゴリ分類子間の一致を測定する最も簡単な方法は、Cohen のカッパです。より複雑な方法については、こちら、こちら、こちら、およびこちらのリンク説明 ます。

そうは言っても、「適切なソリューション」ではなく、「うまく機能する」ソリューションを選択する方が速くて簡単な場合があります。私があなただったら、機械学習ライブラリ (R、Weka、私は個人的にOrangeが大好きです) を選び、何が得られるかを確認します。それでかなり良い結果が得られない場合にのみ、より複雑なソリューションを探してください

于 2010-08-23T07:58:54.150 に答える
1

派手な統計に関心がない場合、トレーニング データが十分に大きい場合、3 つまたは 5 つの出力ノードを持つ 1 つの隠れ層バック プロパゲーション ニューラル ネットワークでうまくいくでしょう。ほとんどの NN 分類器は、常に望ましいとは限らない平均二乗誤差を最小化しようとします。前述のサポート ベクター マシンは、優れた代替手段です。FANN は逆伝播 NN の優れたライブラリであり、ネットワークのトレーニングを支援するツールもいくつかあります。

于 2010-08-23T08:45:22.560 に答える