問題タブ [discretization]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
weka - Weka では、CfsSubsetEval がトレーニング インスタンスを離散化するのをどのように停止できますか?
Weka で CfsSubsetEval クラスを呼び出して機能サブセットの選択を実行する Java プログラムを作成しようとしています。CfsSubsetEval はデータセットを離散化します。データセットは既に離散化されているため、これを回避しようとしています。以下は、離散化を実行する CfsSubsetEval.java の行です。
class 属性は arff ファイルで次のように定義されているため:
属性は数値ではないため、離散化が実行されます。
Weka の実装について少し知識がありますが、離散化をスキップするためにこれらの行をコメントアウトしようとしました。ただし、機能せず、次の例外が報告されます。
問題は、データセットを離散化しないように CfsSubsetEval.java を変更するにはどうすればよいかということです。
よろしくお願いいたします。
r - Rでの米国地域への郵便番号の離散化
郵便番号を含むデータを地域に離散化したい
キャラデータあります
サンプル:
等
ルールのある6つのカテゴリがあります。
リージョン 1 - NE: 01000-19999
リージョン 2 - SE: 20000-39999
リージョン 3 - MW: 40000-58999,60000-69999
地域 4 - 南西: 70000-79999,85000-88499
リージョン 5 - MT: 59000-59999,80000-84999,88900-89999
リージョン 6 - PC: 90000-99999
出力を因子データにしたい:
等
明らかに、私はデータを離散化する多くの方法を知っていますが、クリーンでエレガントなものはありません (ループ、ifelse など)。
このデータを離散化するために 6 つのカテゴリのケースを適用するエレガントな方法はありますか?
python-2.7 - データを離散化する方法 (SIFT 機能)?
私の入力データは次のようになります
[1,1,0,0,0,0,1,0,24,3,0,0,0......]
これらは画像の SIFT 機能であり、サンプルごとに 128 次元であり、それぞれ 128 次元のサンプルが約 100,000 個あります。これらの特徴を離散化したい。それを行うために使用できる簡単なpythonパッケージはありますか? 前もって感謝します!
c++ - 間隔ベースのデータ構造 (boost icl に類似)
私の目標は、不均一なビンに離散化された 3D 空間を表現することです。
ビンには、任意の型の要素が含まれます (型は決定されます)。
ビン (またはビンが存在する間隔) を追加し、以前に追加されたビンと交差する場合、両方をマージする必要があります。
現在、ビン (間隔) を追加するだけで、その後、正しいビンに属する要素を取得するために繰り返し処理を行っていますが、将来的には要素/間隔を変更し、同時に要素にアクセスする必要があるかもしれません。
このデータ構造を使用するアルゴリズムは、時間効率がよいはずです。
これまで、可能な限り既存のライブラリとデータ構造を使用する傾向がありました。
Boost::ICL シームは便利ですが、マージに問題がある可能性があります。
今、私はラッパーでこれをやっています。2 つの次元 (Y、Z) とビンとしてのセットのみを持つ Fe:
これは私にとって少しハッキーな縫い目です:-)
もう 1 つのオプションは、b ツリーまたはインターバル ツリー (cgal の fe) を使用して独自のデータ構造を作成することです。または、boost::icl の適応または拡張。しかし、私は最先端のプログラマーではありません。
だから私の質問は:
私のアプローチの醜さにもかかわらず...これはうまくいくのでしょうか、それとも特定の問題が発生する可能性がありますか?
より適切なデータ構造はありますか?
独自のデータ構造を実装する場合、何を考慮する必要がありますか?
ご協力ありがとうございました
r - カットでRの連続変数を分類しますが、要素は間違ったカテゴリに分類されます
私は R が初めてで、連続変数を 2 つのカテゴリに分割しようとしています。次のことを前提とします。
ベクトルの最後にある6.7という値に特に興味があります。なぜ 6.7 は区間 (6.7, 8.203] に入り、(5.197, 6.7] に入らないのですか? 私が理解する限り、6.7 は区間 (6.7, 8.203] の一部であってはなりません。
編集:
コメントで指摘されているように、6.7は実際には6.7000000000000001776 です。
追加の質問:
新しい要素がどの間隔に収まるかを確認したいので、後で参照できるように間隔の境界を保存します。したがって(5.197,6.7] (6.7,8.203]
、カットによって生成された間隔があり、新しい要素を取得し、x = 6.7
それがどの間隔に収まるかを確認したいとします。5.197 < x <= 6.7
ベクトルからの元の6.7が2番目の間隔に落ちたのに対し、最初の間隔に入るかどうかを確認します。
cuts = cut(y, breaks=2, dig.lab=17)
両方の要素を同じ間隔に入れるための私の方法は本当にここにありますか?
r - パッケージ「dprep」の .C() で「ポイント」を使用できません
教師あり学習 R の相互情報ベースの特徴選択を実行するために、離散化を実行したいと考えています。
次のエラーが表示されます:
.C("Points", as.double(x), as.integer(n), mpoint = double(n), : "Points" not available for .C() for package "dprep"
どんな助けでも大歓迎です。
weka - WEKAクロスバリデーションの離散化
教師なし離散化フィルターを適用して、WEKA モデルの精度を向上させようとしています。ビンの数と、等頻度ビニングを使用するかどうかを決定する必要があります。通常、トレーニング セットを使用してこれを最適化します。
ただし、クロス検証を使用するときにビン サイズと等頻度ビニングを使用する必要があるかどうかを判断するにはどうすればよいですか? 私の最初のアイデアは、複数の相互検証テストで分類器の精度結果を使用して、最適なビン サイズを見つけることでした。しかし、クロスバリデーションを使用しているにもかかわらず、この同じセットを使用してモデルの精度をテストするのは間違っていますか? では、ビンのサイズを決定する正しい方法は何でしょうか?
また、教師付き離散化フィルターを使用してビンのサイズを決定しようとしましたが、これは単一のビンのみになります。これは、データがランダムすぎるため、複数のビンにクラスター化できないということですか?