問題タブ [ensemble-learning]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - sklearn GradientBoostingClassifierでカテゴリ変数を処理するには?
カテゴリ変数を使用してGradientBoostingClassifierでモデルをトレーニングしようとしています。
以下は、カテゴリ変数を に入力しようとするための基本的なコード サンプルですGradientBoostingClassifier。
次のエラーが表示されます。
私が収集したものから、モデルを構築する前に、カテゴリ変数の One Hot Encodingが必要なようです。GradientBoostingClassifier
GradientBoostingClassifier1 つのホット エンコーディングを行うことなく、カテゴリ変数を使用してモデルを構築できますか?
R gbm パッケージは、上記のサンプル データを扱うことができます。同等の機能を持つ Python ライブラリを探しています。
intersystems-ensemble - ファイル内の大きなデータのデータ変換
私はアンサンブルに不慣れで、データ変換に関する説明があります。
次のように2つのスキーマがあります。
および別のスキーマとして、
以下のように、最初のスキーマ ('|' で区切られている) に従って、1000 のレコードを含む受信テキスト ファイルがあります。
このように、入力ファイルには数千のレコードがあります
私の要件は、これを 2 番目のスキーマに従って変換し (つまり、アドレスを分離する)、次のようにファイルに保存することです。
私が実装した 1 つの解決策は、ファイル内の各行をループして、アドレスの , を '|' に置き換えることでした。
私の質問は、DTL でできるかどうかです。答えが「はい」の場合、DTL を使用して何千ものレコードをループするにはどうすればよいでしょうか。
DTL に時間がかかるかどうか。スキーマをロードしてから変換を行う必要があるためです。
助けてください。
python - sklearn アンサンブルとツリーでの連続変数のビニング
sklearn (Python) のアンサンブル (ランダム フォレスト、勾配ブースティング、アダブーストなど) とツリー (デシジョン ツリーなど) が連続変数を処理する方法を誰か教えてもらえますか? ツリーを構築するときに、それらは個々の値として扱われますか? それとも自動的にビニングされますか? それらがビニングされている場合-従うロジックは何ですか。それらがビニングされていない場合、何かが欠けていると確信しています。クラス分布に従ってビン内の変数値をビン化する(少なくともバイナリ分類の場合)インテリジェントなビンニングが利用可能である必要があります(組み込み?)
詳細: arff (非常に歪んだデータ セット内の数百万の行と数百の機能) を weka に読み込み、変数/ターゲット (バイナリ) プロットをスクロールすると、それらの多くに強いビンがあることがわかります (ターゲットがポジティブな領域)。これらのビン、つまり >=x <=y は sklearn で言及されている上記のモデルによって自動的に取得されますか? 添付の図を参照してください (変数/ターゲット プロットに 6 つのバーの非常に細い赤い線が表示されていることがわかる場合)
これに関する洞察に本当に感謝します
よろしく

matlab - Matlab でランダム フォレストの結果にアクセスする
Matlab でランダム フォレストを推定しており、推定後にツリー構造に関する情報を取得しようとしています。特に、アンサンブル内の各ツリーについて、ツリーを通るどのパスが最高/最低および最高/最低の正確な予測を提供するかを把握したいと考えています。- これらのパスの特徴としきい値。
これを行うために Matlab の結果にアクセスするのは難しいと思います。最小限の例として、ヘルプ ファイルの例を考えてみましょう。
今、例えば
最初のツリーの推定値を提供します。機能
各ノードの平均予測と、どのノードが最終ノードであるかに関する情報を提供します。たとえば、すべてのターミナルノードの最高(および同様に最低)の予測を見つけることができます
私の残りの質問は次のとおりです。たとえば、ノード 4 が必要なノードであることがわかりました。ノード 4 (分割変数とカットオフ値を含む) につながるパスを抽出するにはどうすればよいですか?
私はどんな助けにも感謝します、最善、トム
python - PythonでSVMとロジスティック回帰をアンサンブルする方法
テキスト分類のタスクを実行しています(10個のラベルで均等に分散された7000個のテキスト)。そして、SVM とロジスティック回帰を調べることによって
2 つの精度が得られました。上記の 2 つの分類器の出力を組み合わせたアンサンブル システムを開発することで、精度を向上できるかどうかを推測しますscore1。score2私は自分で知識を学びましensembleたが、あることを知っていますbagging,boosting,and stacking。しかし、SVM と Logistic Regression で予測されたスコアを使用する方法がわかりませんensemble。誰かアイデアをくれたり、サンプルコードを見せてくれませんか?
python - sklearn.ensemble で異なる分類子を使用することは可能ですか?
私はsklearn.ensembleを学んでいます、例えば、
clf =AdaBoostClassifier(svm.LinearSVC(),n_estimators=10,max_samples=0.1,)
私の質問は、異なる分類子を として使用できるかどうかです。1 つしか受け入れることができないbase_estimatorため、によって誤分類されたインスタンスの分類を続行するため に使用したい場合、どうすればよいですか? 出来ますか?base_estimatorObjectLogisticRegression()LinearSVC()
python - sklearn.ensemble.AdaBoostClassifier は、SVM を base_estimator として受け入れることができませんか?
私はテキスト分類タスクを行っています。ensemble.AdaBoostClassifier今私はLinearSVCasで使いたいですbase_estimator。ただし、コードを実行しようとすると
エラーが発生しました。TypeError: AdaBoostClassifier with algorithm='SAMME.R' requires that the weak learner supports the calculation of class probabilities with a predict_proba method
最初の質問はsvm.LinearSVC()、クラスの確率を計算できませんか? 確率を計算させる方法は?
次に、パラメーターを変更してalgorithm、コードを再度実行します。
今回はTypeError: fit() got an unexpected keyword argument 'sample_weight'起こります。AdaBoostClassifierにあるSample weights. If None, the sample weights are initialized to 1 / n_samples.ように、 に整数を代入してn_samplesもエラーが発生しました。
2番目の質問は、どういうn_samples意味ですか? この問題を解決するには?
誰かが私を助けてくれることを願っています。
ただし、@jmeのコメントによると、試した後
プログラムは結果を取得できず、サーバーで使用されるメモリは変更されません。
3 番目の質問は、base_estimator としてどのようにAdaBoostClassifier機能させることができるかということです。SVC