1

私は独学で Weka を学び、モデルを構築してそこから予測を得る方法を学びました (CLI を使用した予測)。

以前に構築されたモデルのデータセットで予測を実行すると、予測された各インスタンスの予測信頼度とも呼ばれる「予測」である列が得られます。

信頼度の意味はわかりますが、すべての予測が Weka モデルの精度であってはなりませんか?

別名、精度が 90% の J48 決定木分類子がある場合、このモデルを使用して分類されたすべてのインスタンスの予測信頼度は 90% ではないでしょうか?

このパーセンテージ信頼度がどのように計算されるか、または自分のモデルについて他の人に伝えるときにエラー予測とモデル精度をどのように読み取るべきかを知っている人はいますか? ありがとう

4

1 に答える 1

2

基本的に、デシジョン ツリーがデータセットでトレーニングされている場合、すべてのトレーニング インスタンスでオーバーフィットする前に(または機能不足しているために) 停止したいことがよくあります。これが発生すると、ツリーのリーフ ノードにいくつかのトレーニング サンプルができます。非常に多くの場合、トレーニング ラベルはその時点でまだ混在しています (すべてが正のクラスであり、すべてが負のクラスであるとは限りません)。

信頼度は、ツリーがそのトレーニング インスタンスの葉に到達するまでに、トレーニング ラベルがどの程度一貫しているかを示す尺度です。

編集:これは、欠落している機能(属性)をクリーンで公平な方法で処理するためにも使用されることに注意してください。

これの簡単な定義については、こちらを参照してください。

このための決定木に関する Quinlan の研究も参照してください。特にC4.5に関する彼の作品

また、「信頼度の意味はわかっていますが、すべての予測が Weka モデルの精度であってはなりませんか?」

いいえ、これは真実ではありません。一部のトレーニング サンプルは他のサンプルよりも分類しやすく、これらのスコアはこれを反映しています。

于 2012-06-18T14:08:33.613 に答える