問題タブ [ensemble-learning]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - ensemble pythonで独自の分類器を使用する方法
主な目的は、 CNNのような深層学習の分類方法を Python のアンサンブルに個体として追加することです。
次のコードは正常に動作します。
しかし、エラー:
実行すると起動しeclf1=eclf1.predict(XTest)
ます。
念のため、 はトレーニング用の関数と次の関数でCNN
構成されます。_fit_
machine-learning - この不均衡なクラスの歪んだデータセットをどのように処理しますか?
トレーニングデータセットで、クラスラベルの大部分が 1 (他のクラスラベルは 0) である入力テストデータセットを処理しClass Imbalance Problem
て実行する必要があります。binary-classification
たとえば、次はトレーニング データの一部です。
最後の列はclass-label
-0
または1
です。実際のデータセットは10:1
、クラスの比率によって非常に歪んでいます。つまり、約 700 のサンプルの が 0class label
であるのに対し、残りの 6800 のサンプルは が 1class label
です。
上記は、指定されたデータセット内のすべてのサンプルのほんの一部ですが、実際のデータセットには、ほぼすべての90%
サンプルが非常によく似ています。class-label
1
class-label
0
この種のデータセットを処理するのに最適な分類器はどれですか?
パラメータlogistic-regression
をsvm
_ class-weight
_ "balanced"
_
machine-learning - scikit-learn RandomForestClassifierで機能の重要性と森林構造はどのように関連していますか?
これは、Iris データセットを使用した、私の問題の簡単な例です。機能の重要度がどのように計算されるか、および を使用して推定量の森を視覚化するときにこれがどのように表示されるかを理解しようとすると、私は困惑しexport_graphviz
ます。これが私のコードです:
フォレストには深さ 1 の 2 本の木が含まれているため、分類子のパフォーマンスは低くなります (スコアは 0.68)。 とにかく、これはここでは問題になりません。
機能の重要度は次のように取得されます。
出力は次のとおりです。
次のコードを使用して構築されたツリーの構造を表示すると、次のようになります。
この2つの図を取得します
- ツリー #0 のエクスポート:
- ツリー #1 のエクスポート:
図に示すように、どのように重要度= 1sepallength
を持つことができるのか理解できませんが、両方のツリーでノード分割に使用されません (のみが使用されます)。petallength
scikit-learn - sklearn の Baggingclassifier のサブセット サイズ
私が正しく理解している場合、バギングは、トレーニング データ セットのランダムなサブセットで作成された複数のモデルの平均 (または最も可能性の高い) 結果に基づいて予測を行うことになっています。ただし、scikit-learn の BaggingClassifier ( http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.BaggingClassifier.html ) では、ランダムなサブセットのサイズを設定する方法がないようです。
パッケージは各ランダムサブセットのサイズをどのように決定しますか?
svm - SVM を使用してさまざまなトレーニング済みデータセットを使用する caretEnsmble (問題)
以下は再現可能な例です。基本的に私がやろうとしているのは、5 つの代入データセットを作成し、キャレットの train 関数を使用して各代入データセットに SVM を適用し、caretEnsemble を使用して結果のトレーニング モデルをアンサンブルすることです。最後に、アンサンブル モデルを使用して各テスト セットを予測しています。
ただし、このエラーが発生します
check_bestpreds_obs(modelLibrary) のエラー:
各コンポーネント モデルの観測値が同じではありません。同じ Y 変数でモデルを再トレーニングしてください
とにかく、さまざまなトレーニングモデルをアンサンブルするのに役立つものはありますか?
どんな助けでも本当に感謝しています。