問題タブ [discretization]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
465 参照

matlab - Matlab での分位ソート

私はn-by- 1vector を持っていn = 20000ます。このベクトルのデータの十分位数ランキングを実行したいと思います。これは基本的に、各要素の値を対応する十分位数で置き換えます。

私は現在、このようにしています:

Xデータの配列はどこにありますか。これを行っているのは、それぞれに同じ番号を持つ 10 個のデータ グループが必要だからです。

この手順を検証していただけますか、それともより確実な方法があるかどうか教えていただけますか?

0 投票する
1 に答える
153 参照

r - `cut` の一貫性のない動作: 同じ番号と同じカット ポイントが表示された異なる間隔

次の一貫性のない動作に遭遇しcut、頭痛の種になりました。

問題はcut、カット ポイントをフォーマット (丸め) する前に間隔を選択したように見えることです。これは、2 番目の間隔を選択するが、指定されたカット ポイント (最後の行で確認できる) に従って最初の間隔を選択するという例では、一貫性のない動作につながります。

私のパッケージには 2 つの関数があるため、これは私にとって問題です。上記の例では、同じデータ ポイントが最初の関数の 2 番目の間隔に配置されますが、2 番目の関数の最初の間隔に配置されます。まったく同じカット ポイントが表示されます。これにより、パッケージで奇妙な動作が発生する可能性があります。

私の質問
これは既知の問題ですか? はいの場合、回避策はありますか?ありがとうございました

編集
小数点以下の桁数を変更できることはわかっていますが、小数点以下の桁数がdig.lab多いカットポイントがあると同じ問題が発生します。上記の例は、より一般的な問題のデモンストレーションにすぎません!

0 投票する
1 に答える
219 参照

matlab - 連続時間システムの離散化、および行列指数、切り捨てられた出力

以下に示す連続時間システムがあります。 ここに画像の説明を入力 ここに画像の説明を入力

matlab コードは次のとおりです。

しかし、B1 を計算すると、コンピューターは「出力が切り捨てられました」と表示します。

私を助けてください。

どうもありがとう。

0 投票する
0 に答える
1221 参照

python - Pandas qcutでバケットの値を数える方法は?

Pandas の qcut を使用して、機械学習アルゴリズム用にデータを適切に準備しています。価格のある製品があり、次のコードでデータを同じサイズのバケットに離散化しました:

そして、このコードは私のラベルに関する詳細を持っています:

以下に示すように、PriceBucket と PriceBucketTitle があり、完璧です! 今、考慮される要素の数が必要です。このコードは NaN 値を返します (以下を参照)。

PriceBucket で grouby を実行すれば実現可能かもしれませんが、データ形式を維持したいと考えています。これは結果です:

たとえば、これは私が欲しいものです:

ヘルプ ?ありがとう!

0 投票する
1 に答える
376 参照

weka - WEKA で一連の値を離散化するにはどうすればよいですか?

1 から 50 までの整数値のセットがあり、個々の値ではなく範囲を操作するために、このセットを離散化したいと考えています (デシジョン ツリーの膨大な数です)。1 から 25 までの範囲と 26 から 50 までの別の範囲が必要だとしましょう。離散化フィルタを試してみましたが、何も機能しません。

WEKAでこれを行う方法を知っていますか?

前もって感謝します

0 投票する
1 に答える
458 参照

python - Orange python ライブラリを使用したクロス検証

Pythonパッケージ「オレンジ」でクロスバリデーションを試みます。このライブラリはとても良さそうに見えますが、いくつか問題があります。

バージョン情報については、Python 2.7 と Orange 2.7.8 を使用しています。私の仕事は簡単です。(1)数値属性の離散化と(2)機能選択を使用した相互検証でモデルを検証したい。

ここで、ご存知のように、交差検証ループ内で離散化と特徴選択を処理することが重要です。つまり、相互検証ループごとに、(1) トレーニング データのみを離散化し、同じビニング カットをテスト データに使用し、(2) トレーニング データから重要な特徴を取得し、その特徴をテスト データに使用します。

Orange を研究した後、次のスクリプトをコーディングしました。

要するに、データセット (コード内の「データ」) には数値および離散機能が含まれており、相互検証プロセス内で離散化 (エントロピーに基づく) を行い、次に機能選択 (情報ゲインに基づく上位 3 つの機能) を行いたいと考えています。

ただし、エラーは、数値特徴の情報ゲインを計算するときにエラーが発生したことを示しています。特徴選択は離散化の前に処理されると思います。ちょっとした変更が必要だと思いますが、ウェブのオレンジには十分な例がありません...そして、変更について明確な考えがありません。

改造のポイントを教えてください。ありがとうございました。