問題タブ [random-forest]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
1989 参照

data-mining - ウェカの回帰木の森

Wekaを使用していて、ランダムフォレストで回帰を実行したいと思います。具体的には、データセットがあります。

最も可能性の高いクラスを予測することを学ぶのではなく、特定の特徴ベクトルのクラス全体の確率分布を学びたいと思います。私の直感では、WekaでRandomForestモデルだけを使用することは、二乗誤差(条件付き確率分布)ではなく絶対誤差(最尤法)を最小化しようとするため、適切ではありません。その直感は正しいですか?分類ではなく回帰を実行したい場合に使用するより良いモデルはありますか?

編集:私は実際にそれが実際には問題ではないかもしれないと今考えています。おそらく、分類器は条件付き確率P(Class | Feature1、...、FeatureN)を学習しており、結果の分類は、その確率分布を最大化するクラス内のcを見つけるだけです。したがって、RandomForest分類器は条件付き確率分布を与えることができるはずです。もう少し考えなければなりませんでした。それが間違っている場合は、私を訂正してください。

0 投票する
1 に答える
2464 参照

r - 「randomForest」の「キャレット」での再帰的な機能の削除: 最初のフォレストに異なる ntree パラメーターを設定します

現在、再帰的特徴除去 (RFE) を使用して、非常に高次元のデータセット (p > 200k) のランダム フォレスト分類子を最適化しようとしています。caretパッケージには、これを行うための優れた実装があります ( rfe()関数)。ただし、RAM と CPU の使用量を最適化することも考えています。そのため、最初のフォレストをトレーニングするために異なる (より大きな) 数のツリーを設定し (機能の除去なしで)、その重要性を使用して構築する機会があるかどうか疑問に思います。残りのもの (RFE を使用) は、たとえば 10 倍または 5 倍の交差検証で 500 本の木を使用します。このオプションはvarSelRFで利用できることを知っています..しかし、キャレットはどうですか? マニュアルでこれに関するものを見つけることができませんでした。

0 投票する
1 に答える
453 参照

r - ランダムフォレストエラー-私はメモリ不足ですか?

私はラインを実行しています:

そしてそれはエラーを与えています:

randomForest(x = BFrame(、 "Prediction")、y = BFrame [、which(colnames(BFrame)!=:関数"BFrame"が見つかりませんでした

BFramedata.frame

以前に同様のコードを効果的に使用したことがあるため、非常に混乱しています。ただし、今回はBFrameが大きく、18個の変数の130000個の観測値です。このエラーは、メモリが不足した結果ですか?ソースは他の場所にありますか?

ありがとう

0 投票する
8 に答える
31284 参照

r - R のランダム フォレスト (y の空のクラスと引数の長さ 0)

初めてランダム フォレストを扱っているのですが、理解できない問題がいくつかあります。すべてのデータセット (約 3000 行) に対して分析を実行すると、エラー メッセージは表示されません。しかし、データセットのサブセット (約 300 行) に対して同じ分析を実行すると、エラーが発生します。

ただし、応答変数には空のクラスがありません。

代わりに、この他のメッセージが表示される(a+b+c,y)代わりに、このように randomForest を記述した場合:(y ~ a+b+c)

2 番目の問題は、データを代入しようとするとrfImpute()エラーが発生することです。

ただし、私の列はすべて因子と数値です。

誰かが私が間違っているところを見ることができますか???

0 投票する
0 に答える
917 参照

r - R の RandomForest - すべての因子は部分プロットで直線を持っています

RでパッケージrandomForestを使用して部分プロットを作成しようとしています.ランダムフォレストオブジェクトを実行した後、入力します

wheredata.rforestは randomforest オブジェクト、act2は元のデータセット、centroidは予測変数のC1 つで、応答変数のクラスの 1 つです。どの予測子または応答クラスを試しても、常に直線のプロットが得られます。同様に、カテゴリ変数を予測子として設定すると、すべてのバーが同じ高さの棒グラフが得られます。同じ rforest オブジェクトに対する他のすべての分析が正しいように見えるため (たとえばvarImp、 またはMDSplot)、ここで何か間違ったことをしていると思います。ランダムフォレストオブジェクトに設定されたオプションに関連している可能性はありますか?

0 投票する
1 に答える
270 参照

python - ループ内またはループ外で非常にランダムなツリー分類器を作成する

X_sample に多数のサンプル行列 (mxn) があります。各行列には同じ数の行 (同じ m) がありますが、特徴の数は異なります (diff n)。X サンプルの行列の例は、1000x40、1000x35、1000x30、1000x25 です。私の質問について、次の(かなり単純化された)コード例があります。

パラメータ を使用して、ループの外側に分類子を作成しますmax_features="auto"。さまざまな数の特徴を持つサンプル マトリックスを使用して、ループ内でさまざまな分類を実行します。私の質問はmax_features、ループがフィット操作を実行するたびに、分類器が X_train の実際のサイズ (フィーチャの実際の数) に基づいて の値を調整するかどうかです。値が「auto」のパラメータ max_featuresは、フィーチャ数の平方根に等しい実際の値を取得する必要があります。つまり、ループの外側またはループの内側で分類子を作成する必要がありますか? パラメータの実際の値を読み取る方法はありますmax_featuresか?

0 投票する
2 に答える
2617 参照

r - randomForestモデルのサイズを小さくするにはどうすればよいですか?

私は700万行のデータ(41の機能)でRでrandomForestモデルをトレーニングしてきました。呼び出し例は次のとおりです。

myModel <-randomForest(RESPONSE〜。、data = mydata、ntree = 50、maxnodes = 30)

確かに、ツリーが50個、ターミナルノードが30個しかないので、「myModel」のメモリフットプリントは小さいと思いました。しかし、ダンプファイルでは65メガバイトです。オブジェクトは、トレーニングプロセスからのあらゆる種類の予測、実際、および投票データを保持しているようです。

森が欲しいだけでそれだけだとしたら?後でロードして予測をすばやく行うことができる小さなダンプファイルが必要です。森自体はそんなに大きくてはいけない気がします...

誰かがこの吸盤を私が将来の予測をすることができる何かにまで取り除く方法を知っていますか?

0 投票する
1 に答える
1233 参照

r - randomForest.getTree に相当する caret パッケージ

フォレスト内の各ツリーのテキスト表現を提供するために randomForest.getTree を使用してきましたが、最近、フォレストをトレーニングするためにキャレット パッケージに切り替えました (method='rf')。randomForest.getTree が理解するオブジェクトを取得するにはどうすればよいですか (キャレットは同じ基になるコードを使用しているとされているため)、他の類似の方法でツリーを出力するにはどうすればよいですか?

0 投票する
0 に答える
177 参照

r - 非常に大きなデータセットでランダム フォレストを高速化する

重複の可能性:
ランダム フォレストを高速化するための提案

129600 X 900 のデータにランダム フォレストを構築したいと考えています。さらに、回帰用に 1000 本以上のツリーが必要です。all_reg は 129600 X 900 データ マトリックスで、train_resp_reg は 129600 ラベル マトリックスである、データに対して次のコードを実行しました。

コードは単一のプロセッサで 3 日以上実行されており、まだ実行されているので、もっと高速に実行するソリューションがあるかどうか疑問に思っています。64 コアのサーバーにアクセスできるので、このコードを作成する方法できるだけ速く走る?

任意の提案をいただければ幸いです

0 投票する
1 に答える
951 参照

scikit-learn - scikitのlearn random forest classifierでPrecisionを計算する組み込みの方法はありますか?

scikit の学習を使用してランダム フォレスト分類器を実行しており、結果の一部として精度メトリック (ターゲット値と一致した予測の数) を計算したいと考えています。それを行うための組み込みオプションはありますか?そうでない場合、それを実装する最も簡単な方法は何ですか? ありがとう!