問題タブ [discretization]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

124 問題

0 投票する

1 に答える

465 参照

matlab - Matlab での分位ソート

私はn-by- 1vector を持っていn = 20000ます。このベクトルのデータの十分位数ランキングを実行したいと思います。これは基本的に、各要素の値を対応する十分位数で置き換えます。

私は現在、このようにしています：

Xデータの配列はどこにありますか。これを行っているのは、それぞれに同じ番号を持つ 10 個のデータグループが必要だからです。

この手順を検証していただけますか、それともより確実な方法があるかどうか教えていただけますか?

2016-05-11T08:45:49.463

0 投票する

1 に答える

153 参照

r - `cut` の一貫性のない動作: 同じ番号と同じカットポイントが表示された異なる間隔

次の一貫性のない動作に遭遇しcut、頭痛の種になりました。

問題はcut、カットポイントをフォーマット (丸め) する前に間隔を選択したように見えることです。これは、2 番目の間隔を選択するが、指定されたカットポイント (最後の行で確認できる) に従って最初の間隔を選択するという例では、一貫性のない動作につながります。

私のパッケージには 2 つの関数があるため、これは私にとって問題です。上記の例では、同じデータポイントが最初の関数の 2 番目の間隔に配置されますが、2 番目の関数の最初の間隔に配置されます。まったく同じカットポイントが表示されます。これにより、パッケージで奇妙な動作が発生する可能性があります。

私の質問
これは既知の問題ですか? はいの場合、回避策はありますか？ありがとうございました

編集
小数点以下の桁数を変更できることはわかっていますが、小数点以下の桁数がdig.lab多いカットポイントがあると同じ問題が発生します。上記の例は、より一般的な問題のデモンストレーションにすぎません!

r formatting binning discretization

2016-06-18T16:59:57.363

0 投票する

1 に答える

219 参照

matlab - 連続時間システムの離散化、および行列指数、切り捨てられた出力

以下に示す連続時間システムがあります。ここに画像の説明を入力

matlab コードは次のとおりです。

しかし、B1 を計算すると、コンピューターは「出力が切り捨てられました」と表示します。

私を助けてください。

どうもありがとう。

matlab controls discretization

2016-06-29T07:47:24.520

0 投票する

0 に答える

1221 参照

python - Pandas qcutでバケットの値を数える方法は?

Pandas の qcut を使用して、機械学習アルゴリズム用にデータを適切に準備しています。価格のある製品があり、次のコードでデータを同じサイズのバケットに離散化しました:

そして、このコードは私のラベルに関する詳細を持っています:

以下に示すように、PriceBucket と PriceBucketTitle があり、完璧です! 今、考慮される要素の数が必要です。このコードは NaN 値を返します (以下を参照)。

PriceBucket で grouby を実行すれば実現可能かもしれませんが、データ形式を維持したいと考えています。これは結果です：

たとえば、これは私が欲しいものです:

ヘルプ？ありがとう！

python pandas buckets discretization quartile

2016-07-21T11:58:11.757

0 投票する

1 に答える

376 参照

weka - WEKA で一連の値を離散化するにはどうすればよいですか?

1 から 50 までの整数値のセットがあり、個々の値ではなく範囲を操作するために、このセットを離散化したいと考えています (デシジョンツリーの膨大な数です)。1 から 25 までの範囲と 26 から 50 までの別の範囲が必要だとしましょう。離散化フィルタを試してみましたが、何も機能しません。

WEKAでこれを行う方法を知っていますか?

前もって感謝します

weka decision-tree discretization

2016-11-04T12:12:01.123

0 投票する

1 に答える

458 参照

python - Orange python ライブラリを使用したクロス検証

Pythonパッケージ「オレンジ」でクロスバリデーションを試みます。このライブラリはとても良さそうに見えますが、いくつか問題があります。

バージョン情報については、Python 2.7 と Orange 2.7.8 を使用しています。私の仕事は簡単です。（1）数値属性の離散化と（2）機能選択を使用した相互検証でモデルを検証したい。

ここで、ご存知のように、交差検証ループ内で離散化と特徴選択を処理することが重要です。つまり、相互検証ループごとに、(1) トレーニングデータのみを離散化し、同じビニングカットをテストデータに使用し、(2) トレーニングデータから重要な特徴を取得し、その特徴をテストデータに使用します。

Orange を研究した後、次のスクリプトをコーディングしました。

要するに、データセット (コード内の「データ」) には数値および離散機能が含まれており、相互検証プロセス内で離散化 (エントロピーに基づく) を行い、次に機能選択 (情報ゲインに基づく上位 3 つの機能) を行いたいと考えています。

ただし、エラーは、数値特徴の情報ゲインを計算するときにエラーが発生したことを示しています。特徴選択は離散化の前に処理されると思います。ちょっとした変更が必要だと思いますが、ウェブのオレンジには十分な例がありません...そして、変更について明確な考えがありません。

改造のポイントを教えてください。ありがとうございました。

python cross-validation orange discretization

2016-12-07T09:51:02.043

1 2 3 4 5 6 7 8 9 10

問題タブ [discretization]

matlab - Matlab での分位ソート

r - `cut` の一貫性のない動作: 同じ番号と同じカット ポイントが表示された異なる間隔

matlab - 連続時間システムの離散化、および行列指数、切り捨てられた出力

python - Pandas qcutでバケットの値を数える方法は?

weka - WEKA で一連の値を離散化するにはどうすればよいですか?

python - Orange python ライブラリを使用したクロス検証

Reference

r - `cut` の一貫性のない動作: 同じ番号と同じカットポイントが表示された異なる間隔