問題タブ [information-theory]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
1899 参照

weka - ゲイン比と情報ゲインを使用した Weka (ID3 & C4.5(J48))

私はWekaを使用しており、情報ゲインとゲイン比を使用してデータセットを分析する必要がありますが、これらをどこから設定するかを見つけることができません. id3がインフォメーションゲイン、J48がゲインレシオということは分かりましたが、J48をインフォメーションゲイン、id3をゲインレシオに設定することはできますか?

0 投票する
0 に答える
377 参照

java - 整数のストリームからのエントロピーの推定

私はすべての 32 ビット整数の空間全体に整数の連続ストリームを持っており、更新のたびに、遭遇した整数の分布の正確なエントロピーまたはおおよそのエントロピーを知りたいと思っています。これは、ライフタイム全体にわたるグローバル エントロピー、または時間が経過するにつれて古い情報を減衰させるウィンドウ近似である可能性があります。

これを既に行っているライブラリ、またはこのプロパティを持つアルゴリズムを知っている人はいますか?

明らかに、これはストリーミング アルゴリズムです。これは、毎回範囲を反復処理し、更新ごとにエントロピーを計算するにはコストがかかりすぎるためです。これを行うことができるアルゴリズムやスケッチデータ構造を知っている人はいますか?

動機と使用例は、整数のストリームでスキューを検出したいということです。整数の範囲全体で均一であると想定されていますが、特定の時点で、他の条件により均一性が乱される可能性があり、エントロピーがこの種の状態を検出する最良の方法だと思います. 理想的には、計算コンポーネントの低エントロピーに関するアラートが必要です。

助けてくれてありがとう!

編集:私は実際にこれを正確に行う論文を見つけましたが、既存の実装は知りません。テスト済みで検証済みのコードを再利用することは、自分で実装するよりもはるかに優れています。:)

0 投票する
2 に答える
87 参照

machine-learning - SVM (または他の ML モデル) の予測精度は、特徴のエンコード方法にどの程度依存しますか?

与えられた ML 問題について、その人が所有している車の特徴があるとします。この情報は、次のいずれかの方法でエンコードできます。

  1. 各車にIDを割り当てます。列「CAR_POSSESSED」を作成し、機能 ID を値として入力します。
  2. 車ごとに列を作り、対象のサンプルがその車を所有しているかどうかに応じて、0 または 1 を付けます。列は「BMW_POSSESSED」、「AUDI_POSSESSED」のようになります。

私の実験では、SVM で試した場合、2 番目の方法は 1番目の方法よりもはるかに 優れたパフォーマンスを示しました。

エンコーディングの方法はモデル学習にどのように影響しますか?エンコーディングの影響が研究されているリソースはありますか? それとも、どこで最もパフォーマンスが良いかを確認するために、ヒットと試行を行う必要がありますか?

0 投票する
0 に答える
180 参照

r - 周波数の負の値、R のパッケージ エントロピー

Rのパッケージ「エントロピー」を使用して、小数点と正と負の値を持つベクトルyを持っています。

頻度を計算すると、ベクトルの正と負の値に対応する正と負の値が得られます。なぜそうなのですか?私は何をすべきか?

私の目的はエントロピーを計算することなので、負の周波数は対数では機能しません。助言がありますか?ありがとう!

0 投票する
1 に答える
424 参照

classification - 決定木における機能の重要性、離散化、基準

私は数値機能を扱っており、機能の重要性を見つけるために sklearn でディシジョン ツリー分類子を使用したいと考えています。

したがって、分割にエントロピー基準を選択すると、データを分割するための不純物の尺度として情報ゲインが使用されます。これは、Fayyad & Irani バイナリ離散化と同等だと思います。

最終的に、分類子は「機能の重要度」と呼ばれる属性を返します。

機能の重要性。高いほど、その機能は重要です。機能の重要性は、その機能によってもたらされる基準の (正規化された) 合計削減として計算されます。ジニ重要度 [R195] としても知られています。

私の質問は、情報ゲインを使用して最適な分割を見つけているにもかかわらず、「機能の重要度」は、エントロピー基準で見つかった分割で測定されたジニ重要度の値を返すのでしょうか?