問題タブ [discretization]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
matlab - Matlab での分位ソート
私はn
-by- 1
vector を持っていn = 20000
ます。このベクトルのデータの十分位数ランキングを実行したいと思います。これは基本的に、各要素の値を対応する十分位数で置き換えます。
私は現在、このようにしています:
X
データの配列はどこにありますか。これを行っているのは、それぞれに同じ番号を持つ 10 個のデータ グループが必要だからです。
この手順を検証していただけますか、それともより確実な方法があるかどうか教えていただけますか?
r - `cut` の一貫性のない動作: 同じ番号と同じカット ポイントが表示された異なる間隔
次の一貫性のない動作に遭遇しcut
、頭痛の種になりました。
問題はcut
、カット ポイントをフォーマット (丸め) する前に間隔を選択したように見えることです。これは、2 番目の間隔を選択するが、指定されたカット ポイント (最後の行で確認できる) に従って最初の間隔を選択するという例では、一貫性のない動作につながります。
私のパッケージには 2 つの関数があるため、これは私にとって問題です。上記の例では、同じデータ ポイントが最初の関数の 2 番目の間隔に配置されますが、2 番目の関数の最初の間隔に配置されます。まったく同じカット ポイントが表示されます。これにより、パッケージで奇妙な動作が発生する可能性があります。
私の質問
これは既知の問題ですか? はいの場合、回避策はありますか?ありがとうございました
編集
小数点以下の桁数を変更できることはわかっていますが、小数点以下の桁数がdig.lab
多いカットポイントがあると同じ問題が発生します。上記の例は、より一般的な問題のデモンストレーションにすぎません!
matlab - 連続時間システムの離散化、および行列指数、切り捨てられた出力
以下に示す連続時間システムがあります。
matlab コードは次のとおりです。
しかし、B1 を計算すると、コンピューターは「出力が切り捨てられました」と表示します。
私を助けてください。
どうもありがとう。
python - Pandas qcutでバケットの値を数える方法は?
Pandas の qcut を使用して、機械学習アルゴリズム用にデータを適切に準備しています。価格のある製品があり、次のコードでデータを同じサイズのバケットに離散化しました:
そして、このコードは私のラベルに関する詳細を持っています:
以下に示すように、PriceBucket と PriceBucketTitle があり、完璧です! 今、考慮される要素の数が必要です。このコードは NaN 値を返します (以下を参照)。
PriceBucket で grouby を実行すれば実現可能かもしれませんが、データ形式を維持したいと考えています。これは結果です:
たとえば、これは私が欲しいものです:
ヘルプ ?ありがとう!
weka - WEKA で一連の値を離散化するにはどうすればよいですか?
1 から 50 までの整数値のセットがあり、個々の値ではなく範囲を操作するために、このセットを離散化したいと考えています (デシジョン ツリーの膨大な数です)。1 から 25 までの範囲と 26 から 50 までの別の範囲が必要だとしましょう。離散化フィルタを試してみましたが、何も機能しません。
WEKAでこれを行う方法を知っていますか?
前もって感謝します
python - Orange python ライブラリを使用したクロス検証
Pythonパッケージ「オレンジ」でクロスバリデーションを試みます。このライブラリはとても良さそうに見えますが、いくつか問題があります。
バージョン情報については、Python 2.7 と Orange 2.7.8 を使用しています。私の仕事は簡単です。(1)数値属性の離散化と(2)機能選択を使用した相互検証でモデルを検証したい。
ここで、ご存知のように、交差検証ループ内で離散化と特徴選択を処理することが重要です。つまり、相互検証ループごとに、(1) トレーニング データのみを離散化し、同じビニング カットをテスト データに使用し、(2) トレーニング データから重要な特徴を取得し、その特徴をテスト データに使用します。
Orange を研究した後、次のスクリプトをコーディングしました。
要するに、データセット (コード内の「データ」) には数値および離散機能が含まれており、相互検証プロセス内で離散化 (エントロピーに基づく) を行い、次に機能選択 (情報ゲインに基づく上位 3 つの機能) を行いたいと考えています。
ただし、エラーは、数値特徴の情報ゲインを計算するときにエラーが発生したことを示しています。特徴選択は離散化の前に処理されると思います。ちょっとした変更が必要だと思いますが、ウェブのオレンジには十分な例がありません...そして、変更について明確な考えがありません。
改造のポイントを教えてください。ありがとうございました。