問題タブ [discretization]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
3 に答える
13144 参照

r - arules パッケージを使用した R の離散化

データフレーム内の連続変数を離散化するためにルールパッケージを使用しています。私はこの特定のラインを使用しています

離散化 (データ 1、カテゴリ = 3)

しかし、それは私にエラーを与えます

cut.default(x,k2) のエラー: k2 は数値でなければなりません

連続変数を「data1」データフレームから3つのビンの離散変数に変換しようとしています。助けていただければ幸いです...事前に感謝します

0 投票する
1 に答える
479 参照

numpy - np.histogram を使用した連続属性の離散化 - 新しいデータ ポイントに適用する方法は?

継続sklearn で連続属性の離散化を行う方法は?

トレーニング データからビンを「学習」した後、np.histogram(A['my_var'])それをテスト セットに適用するにはどうすればよいですか? 各データポイントの my_var 属性はどのビンのように? 必要に応じて、トレーニング データとテスト データの両方が pandas データ フレームにあります。

ありがとう

0 投票する
2 に答える
8676 参照

scikit-learn - Scikit Learn - ランダムフォレスト:連続機能はどのように処理されますか?

ランダム フォレストは数値データを受け入れます。通常、テキスト データを持つフィーチャは数値カテゴリに変換され、連続した数値データは離散化されずにそのまま入力されます。RF はノードを作成するために連続データをどのように処理しますか? 連続数値データを内部でビン化しますか? または、各データを離散レベルとして扱います。

例:データセットを(もちろんテキスト機能を分類した後)RFにフィードしたい。連続データは RF によってどのように処理されますか? 給餌する前に、連続データ (この場合は経度と緯度) を離散化することをお勧めしますか? それともそうすると情報が失われますか?

経度および緯度フィーチャの連続データを示す画像

0 投票する
1 に答える
50 参照

java - Banjo で変数に任意の数の値を設定する方法

Banjo (BAyesian Network inference with Java Objects) を使用して一連のデータを分析しています。Banjo 離散化ポリシー (ix、qx) を使用せずに、各変数が 7 つを超える値の範囲を取るようにします (Banjo は変数が取り得る値の量にこの制限を設定します)。設定ファイルのみを変更する方法はありますか、それともコードを変更する必要がありますか? ありがとう

0 投票する
1 に答える
676 参照

machine-learning - 不均衡なデータのビニング

次のような不均衡な数値データセットがあります。

データセット.

データを 8 つのビンにビン化する必要がありますが、ビンを同じサイズに設定すると、すべてのデータが 2 つのビンにのみ取得され、残りのビンは空になります。

多くのデータ ポイントがある場合は細かいビンでデータを離散化し、データ ポイントが少ない場合はより粗いビンにする統計的または数学的方法はありますか?

0 投票する
1 に答える
219 参照

matlab - MATLAB:10変数の関数を離散化する方法(現在ndgridとarrayfunを使用)?

私には機能があります

離散化したい。この関数を含む最適化を実行する予定です。最適化の効率は、連続関数を評価する代わりに、関数を離散化し、データに対してスプライン補間を行うことで改善されると思います。基本的に、v1、v2、... v10 のさまざまな値と相関する output1 と output2 のそれぞれに 10 次元の double が必要です。

無限の時間とメモリを使用して、次のことを行います。

時間とメモリ (ndgrid と arrayfun を実行するために必要) は明らかにこれを許可しません。誰かが回避策を考えることができますか、または10変数の関数を離散化するこの問題は完全に扱いにくいですか?

0 投票する
1 に答える
1009 参照

signals - Simulink: リアルタイム相互相関

私はプロジェクトに取り組んでいます。完全に説明するのは複雑ですが、次のようになります。

2 つの信号 A と B があり、B は A の時間遅延エコーです。リアルタイム相互相関を使用して、信号が通過する媒体が変化しない間、時間遅延が一定のままであることを示したいと思います。

Simulink と Communications Statistics などの両方の経験が不足しているため、問題が発生します。

では、これについてどうすればよいでしょうか。私は2つの連続信号AとBを持っています.私がしなければならないことは、それらを離散信号に変換してから、フレームベースの処理とXCORRを使用することだと思います...しかし、どうすればいいのかわかりません。

誰でも助けることができますか?または、2つの連続信号を相互に相関させる方法の例/XCORRとフレームベースの処理の使用方法の例を提供してください?

0 投票する
1 に答える
251 参照

r - 連続変数の対数の離散化

連続変数を 3 つのレベルに分割して離散化しようとしています。正の連続変数 (この場合は収入) の対数についても同じことを行いたいと考えています。

cut()対数は単調関数であるため、 を使用すると、これらの変数 (収入と対数収入) のそれぞれの離散化された因子に対して同じレベルが生成されると考えていました。したがって、ここの右側の 2 つの列は等しいはずですが、そうではないようです。どうしたの?

編集: @nicola のコメントは、問題の原因を説明しています。のドキュメントではcut、「等長間隔」は、連続引数の空間内の間隔の長さを指しているようです。私は当初、「等長間隔」を、(出力の) 各カットに割り当てられた要素の数が (入力の代わりに) 等しいことを意味すると解釈していました。

私が説明していることを行う機能はありますか?-- 各出力レベルの要素数が等しい場所は? newfunc(realinc)同様に、とのレベルnewfunc(logrealinc)が等しい場所はどこですか?