問題タブ [ensemble-learning]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
20709 参照

python - sklearn GradientBoostingClassifierでカテゴリ変数を処理するには?

カテゴリ変数を使用してGradientBoostingClassifierでモデルをトレーニングしようとしています。

以下は、カテゴリ変数を に入力しようとするための基本的なコード サンプルですGradientBoostingClassifier

次のエラーが表示されます。

私が収集したものから、モデルを構築する前に、カテゴリ変数の One Hot Encodingが必要なようです。GradientBoostingClassifier

GradientBoostingClassifier1 つのホット エンコーディングを行うことなく、カテゴリ変数を使用してモデルを構築できますか?

R gbm パッケージは、上記のサンプル データを扱うことができます。同等の機能を持つ Python ライブラリを探しています。

0 投票する
2 に答える
128 参照

intersystems-ensemble - ファイル内の大きなデータのデータ変換

私はアンサンブルに不慣れで、データ変換に関する説明があります。

次のように2つのスキーマがあります。

および別のスキーマとして、

以下のように、最初のスキーマ ('|' で区切られている) に従って、1000 のレコードを含む受信テキスト ファイルがあります。

このように、入力ファイルには数千のレコードがあります

私の要件は、これを 2 番目のスキーマに従って変換し (つまり、アドレスを分離する)、次のようにファイルに保存することです。

私が実装した 1 つの解決策は、ファイル内の各行をループして、アドレスの , を '|' に置き換えることでした。

私の質問は、DTL でできるかどうかです。答えが「はい」の場合、DTL を使用して何千ものレコードをループするにはどうすればよいでしょうか。

DTL に時間がかかるかどうか。スキーマをロードしてから変換を行う必要があるためです。

助けてください。

0 投票する
2 に答える
6854 参照

python - sklearn アンサンブルとツリーでの連続変数のビニング

sklearn (Python) のアンサンブル (ランダム フォレスト、勾配ブースティング、アダブーストなど) とツリー (デシジョン ツリーなど) が連続変数を処理する方法を誰か教えてもらえますか? ツリーを構築するときに、それらは個々の値として扱われますか? それとも自動的にビニングされますか? それらがビニングされている場合-従うロジックは何ですか。それらがビニングされていない場合、何かが欠けていると確信しています。クラス分布に従ってビン内の変数値をビン化する(少なくともバイナリ分類の場合)インテリジェントなビンニングが利用可能である必要があります(組み込み?)

詳細: arff (非常に歪んだデータ セット内の数百万の行と数百の機能) を weka に読み込み、変数/ターゲット (バイナリ) プロットをスクロールすると、それらの多くに強いビンがあることがわかります (ターゲットがポジティブな領域)。これらのビン、つまり >=x <=y は sklearn で言及されている上記のモデルによって自動的に取得されますか? 添付の図を参照してください (変数/ターゲット プロットに 6 つのバーの非常に細い赤い線が表示されていることがわかる場合)

これに関する洞察に本当に感謝します

よろしく

ここに画像の説明を入力

0 投票する
0 に答える
547 参照

matlab - Matlab でランダム フォレストの結果にアクセスする

Matlab でランダム フォレストを推定しており、推定後にツリー構造に関する情報を取得しようとしています。特に、アンサンブル内の各ツリーについて、ツリーを通るどのパスが最高/最低および最高/最低の正確な予測を提供するかを把握したいと考えています。- これらのパスの特徴としきい値。

これを行うために Matlab の結果にアクセスするのは難しいと思います。最小限の例として、ヘルプ ファイルの例を考えてみましょう。

今、例えば

最初のツリーの推定値を提供します。機能

各ノードの平均予測と、どのノードが最終ノードであるかに関する情報を提供します。たとえば、すべてのターミナルノードの最高(および同様に最低)の予測を見つけることができます

私の残りの質問は次のとおりです。たとえば、ノード 4 が必要なノードであることがわかりました。ノード 4 (分割変数とカットオフ値を含む) につながるパスを抽出するにはどうすればよいですか?

私はどんな助けにも感謝します、最善、トム

0 投票する
1 に答える
2006 参照

python - PythonでSVMとロジスティック回帰をアンサンブルする方法

テキスト分類のタスクを実行しています(10個のラベルで均等に分散された7000個のテキスト)。そして、SVM とロジスティック回帰を調べることによって

2 つの精度が得られました。上記の 2 つの分類器の出力を組み合わせたアンサンブル システムを開発することで、精度を向上できるかどうかを推測しますscore1score2私は自分で知識を学びましensembleたが、あることを知っていますbagging,boosting,and stacking。しかし、SVM と Logistic Regression で予測されたスコアを使用する方法がわかりませんensemble。誰かアイデアをくれたり、サンプルコードを見せてくれませんか?

0 投票する
1 に答える
1174 参照

python - sklearn.ensemble で異なる分類子を使用することは可能ですか?

私はsklearn.ensembleを学んでいます、例えば、 clf =AdaBoostClassifier(svm.LinearSVC(),n_estimators=10,max_samples=0.1,)

私の質問は、異なる分類子を として使用できるかどうかです。1 つしか受け入れることができないbase_estimatorため、によって誤分類されたインスタンスの分類を続行するため に使用したい場合、どうすればよいですか? 出来ますか?base_estimatorObjectLogisticRegression()LinearSVC()

0 投票する
4 に答える
17402 参照

python - sklearn.ensemble.AdaBoostClassifier は、SVM を base_estimator として受け入れることができませんか?

私はテキスト分類タスクを行っています。ensemble.AdaBoostClassifier今私はLinearSVCasで使いたいですbase_estimator。ただし、コードを実行しようとすると

エラーが発生しました。TypeError: AdaBoostClassifier with algorithm='SAMME.R' requires that the weak learner supports the calculation of class probabilities with a predict_proba method

最初の質問はsvm.LinearSVC()、クラスの確率を計算できませんか? 確率を計算させる方法は?

次に、パラメーターを変更してalgorithm、コードを再度実行します。

今回はTypeError: fit() got an unexpected keyword argument 'sample_weight'起こります。AdaBoostClassifierにあるSample weights. If None, the sample weights are initialized to 1 / n_samples.ように、 に整数を代入してn_samplesもエラーが発生しました。

2番目の質問は、どういうn_samples意味ですか? この問題を解決するには?

誰かが私を助けてくれることを願っています。

ただし、@jmeのコメントによると、試した後

プログラムは結果を取得できず、サーバーで使用されるメモリは変更されません。

3 番目の質問は、base_estimator としてどのようにAdaBoostClassifier機能させることができるかということです。SVC