問題タブ [information-gain]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
0 に答える
4445 参照

r - 情報利得率の計算

R または Python で Information Gain Ratio (IGR) を実行するコードを探していました。便利な R パッケージを見つけましたが、メンテナンスされておらず、CRAN から削除されました。ただし、古いバージョンを見つけたので、重要な機能を自由に「借用」しました。いくつかの変更を行い、また、いくつかの新しい機能を追加しました。アルゴリズムは、2 つのキュー/機能の 2x2 行列と、それらの (共) 発生とイベントの総数を想定しています。キュー/機能ごとに 1 つずつ、合計 2 つの IGR を返します。

しかし、うまく最適化されていないと思いますので、より良い実装方法を学びたいと思っています。特に、関数 cueRE と getIGRs をより良くする方法がなければならないと思います。以下は、例と関数です。

アドバイスやコメントをいただければ幸いです。どうもありがとう!

これは次のように使用されます

0 投票する
0 に答える
485 参照

machine-learning - 以下のデータセットの情報利得を計算する方法は?

情報利得の計算を理解している間 - 人口の癌の確率は 1% です。がんの検査では、がん患者は 50% の確率で、非がん患者は 99.5% の確率で正しく識別されます。さて、この癌検査で得られる情報利得を計算しなければなりませんか? これは、エントロピーと情報獲得を学びながら解決しようとしている演習問題の 1 つです。編集 - 上記を計算する私の試みは -

総人口を100とすると、
Cancer patient =1 Non-cancer patient = 99 Entropy H = -1/100 log(1/100)- 99/100 log(99/100)

がん患者のテストでは、50% ががん患者で、50% が非がん患者であることがわかりました。したがって、がん患者としての分類のエントロピー -

非癌患者 99.5% の非癌患者と 0.5% の癌を与えます。したがって、情報は得られるはずです。非がん患者への分類のエントロピーは -

H2 = -(99.5*99/100)log(99.5*99/100) - (5/100)*99 log(5/100*99) テスト後にエントロピーを取得する正しい方法を知りたいです。これが正しければ、情報利得を計算できます -

0 投票する
1 に答える
1323 参照

machine-learning - 連続値でエントロピーを評価するための Weka の InfoGainAttributeEval 式は何ですか?

私は Weka の属性選択機能を Information Gain に使用しており、Weka が連続データを処理する際に使用する特定の式を理解しようとしています。

エントロピーの通常の式は、データの値が離散的である場合のこれであることを理解しています。連続データを扱う場合、差分エントロピーを使用するか、値を離散化できることを理解しています。InfoGainAttributeEvalに対する Weka の説明を調べてみましたが、他の多くの参照を調べましたが、何も見つかりません。

たぶん私だけかもしれませんが、Wekaがこのケースをどのように実装するか知っている人はいますか?

ありがとう!

0 投票する
0 に答える
633 参照

r - Rの特定の用語とクラスの間の相互情報量を計算するには?

N次の形式の行の入力ファイルが与えられます。

フィールドには [0,1] のみの 2 つの値がありclassます (つまり、2 つのクラス)

フィールドは、textスペースで区切られた用語のセットで構成されます。

R を使用して、データセット内の一意の各用語と各クラスの間の相互情報を計算するにはどうすればよいですか。

0 投票する
0 に答える
251 参照

r - gain.ratio が NaN を与えるのはなぜですか?

機能選択のために属性をチェックしようとしています。そのために、 information.gain 、 gain.ratio 、カイ 2 乗を適用しましたが、一部の属性は NaN または 0.0000000 の値を与えています。

ゲインレシオは

カイ二乗は

データを表示するレコードの一部 (画像を追加したかったのですが、サイトで許可されていません)

私には正しくないように見えるので、結果として NaN を使用しても問題ありませんか。また、カイ二乗の日付の場合のように、属性を 1 にすることはできますか?

0 投票する
2 に答える
3279 参照

decision-tree - 特定の属性のエントロピーを計算しますか?

これは非常に単純ですが、決定木と ID3 アルゴリズムについて学んでいます。非常に役立つウェブサイトを見つけて、エントロピーと情報利得に関するすべてをフォローしていました。

ページのこのポイント。

個々の属性 (晴れ、風、雨) のエントロピーの計算方法、特に p-sub-i の計算方法がわかりません。Entropy(S)の計算方法とは違うようです。この計算の背後にあるプロセスを説明できる人はいますか?