問題タブ [random-forest]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
3 に答える
10142 参照

r - R の回帰のための RandomForest

R と randomForest パッケージを試しています。SVM とニューラル ネットの経験があります。私の最初のテストは、sin(x)+ガウス ノイズの回帰です。Neural Nets と svm を使用すると、sin(x) の「比較的」適切な近似値が得られるため、ノイズが除去され、学習アルゴリズムが過適合しなくなります。(まともなパラメータの場合) randomForest で同じことを行うと、完全にオーバーフィットしたソリューションになります。私は単に使用します(念のため、R 2.14.0、2.14.1でも試しました):

randomForest には、正しく機能させるための魔法のオプションがあると思います。いくつか試してみましたが、引くべき正しいレバーが見つかりませんでした...

0 投票する
1 に答える
957 参照

python - scikit Learn を使用したランダム フォレストは .9 以下

Mac と Linux ボックスに Scikit Learn をインストールする際に奇妙な問題が発生しています。scikit Learn .9 のみがインストールされます。

このバージョンを使用してランダム フォレストを学習する方法はありますか?

0 投票する
1 に答える
240 参照

python - 大規模なデータセットをコピーする Python の効率の向上

Python で作業しているランダム フォレストの実装に少し問題があります。念のため言っておきますが、Python は非常に効率的な数値計算を目的としていないことをよく知っています。この選択は、Python をより深く理解し、さらに経験を積みたいという欲求に基づいていました。「合理的」にするための解決策を見つけたいと思います。

そうは言っても、ここの誰かが私の実装に対してパフォーマンス改善の提案をしてくれるかどうか興味があります。プロファイラーで実行すると、リストの「追加」コマンドとデータセット分割操作の実行にほとんどの時間が費やされていることが明らかです。基本的に、マトリックス (むしろリストのリスト) として実装された大規模なデータセットがあります。そのデータセットを使用してデシジョン ツリーを作成しているので、情報ゲインが最も高い列に分割します。分割は、いくつかの条件に一致する行のみを含む 2 つの新しいデータセットを作成することで構成されます。新しいデータセットは、2 つの空の lista を初期化し、適切な行を追加することによって生成されます。

リストのサイズは事前にわからないので、事前に十分なリスト スペースを割り当て、最後にリストのサイズを更新することができない限り、それらを事前に割り当てることはできません (これはどこにも参照されていません)。 .

Pythonでこのタスクを処理するより良い方法はありますか?

0 投票する
0 に答える
1230 参照

r - randomForest の NA

randomForest (R) の NA について質問があります。数値変数と非数値変数の両方を含むデータセットがあり、データには NA が含まれています。これに対処するためのヒントはありますか?na.roughfix を使用しようとしましたが、「na.roughfix は数値または係数に対してのみ機能します」というエラー メッセージが表示されます。rfImpute も試しましたが、応答変数に NA があるため、これも機能しません。誰にもいくつかのヒントがありますか?

0 投票する
2 に答える
4736 参照

java - 本番環境で使用するためにRからRandomForestを抽出するにはどうすればよいですか?

ランダムフォレストモデルが成功していて、それを別のソフトウェアに統合したいのですが、一部のライブラリ(JavaのfastRFや他の言語のALGLIBのDecisionForestなど)を使用できることはわかっていますが、Rでトレーニングされた「モデル」をどのように使用できますか?新しい言語で再トレーニングする必要がありますか?

別の見方はどういうわけかそれを抽出することです、しかし私はそれをする方法を知りません...

どんな助けでもありがたいです

前もって感謝します

0 投票する
1 に答える
653 参照

opencv - Gini Impurity、opencvでランダムツリーを成長

目標: openCV で成長するツリーの分割決定にオフセット不純物を追加すること。

現在、opencv ランダム ツリーでは、分割は次のように行われます。

そのジニ不純物を使用しています。

ここに画像の説明を入力

コードがこれをどのように達成するかを説明できる人なら誰でも、最初はすべてのクラス数を右側のノードに配置し、1 つのインスタンスを右から左に移動して lsum2 と rsum2 を更新しながら、最適なソリューションを見つけます。私が得られないのは、p_j^2 が lv*2 +1 または rv*2-1 にどのように関連しているかです。

本当の問題は、利用可能なオフセットがあり、オフセットの類似性の不純物に基づいて分割を追加したい場合です。(オフセットは、中心から現在のノードまでの方向と距離です。

私が思いついたのはこのようなものです.atmは良い結果をもたらさず、どこからデバッグを開始すればよいかわからないため、誰かが欠陥を指摘できればそれは良いことです.

0 投票する
2 に答える
4870 参照

r - randomForest パッケージに観測重みを組み込む

randomForest観測の重みでR パッケージを使用するにはどうすればよいですか? このパッケージにはそのようなオプションがないことを知っています。2 つの質問があります。

  1. randomForestパッケージを使用してこの問題の解決策はありますか? 現時点では、重みを確率としてデータからサンプルを抽出しているため、少なくともシミュレートできます。

    他の(より良い)解決策はありますか?

  2. randomForestパッケージの代替品はありますか。パッケージ (cforest)を見つけましたpartyが、メモリ管理の点でひどいです (または、パッケージを使用する方法では使用できませんrandomForest)。約 20 万の観測と 30 ~ 40 の変数があります。

編集:

詳細を明確にしておらず申し訳ありません。randomForest回帰問題(分類ではない)にパッケージを使用しています。これは時系列であり、すべての観測には重みがあります。後で、この重みを使用して、テスト観測全体でモデルのパフォーマンスを決定します。y 変数は連続です。

0 投票する
1 に答える
200 参照

opencv - OpenCVを使用してランダムフォレストでランダムサンプリングを停止するにはどうすればよいですか?

機能を使用しますCvRTrees::train。この関数は、データを自動的にサンプリングします。問題は、渡す前にデータを既にサンプリングしていることです。もう一度再サンプリングしたくありません。このサンプリングを停止するために渡されるフラグはありますか、それともコードからこの行を削除する必要がありますか?

ありがとうございました

0 投票する
1 に答える
18191 参照

r - 大きなデータセット上のランダムフォレスト

randomForest回帰の目的でランダムフォレストを(パッケージを使用して)トレーニングするために使用したいRの大きなデータセット(100万行以上×6列)があります。残念ながら、Error in matrix(0, n, n) : too many elements specifiedすべてを一度に実行しようとするとエラーが発生し、データのサブセットで実行すると、10,000程度の観測値まで、十分なメモリの種類のエラーを割り当てることができません。

マシンにRAMを追加できる可能性はなく、ランダムフォレストは、モデル化しようとしているプロセスのタイプに非常に適しているので、これを機能させたいと思います。

任意の提案や回避策のアイデアは大歓迎です。

0 投票する
1 に答える
14256 参照

r - RのRandomForestパッケージのRandomForest関数のパラメータ「classwt」は何を表していますか?

のヘルプページにrandomforest::randomforest()は次のように書かれています。

「classwt - クラスの事前確率。1 つまで追加する必要はありません。回帰のために無視されます。」

classwtバランスの取れていない重いデータがある場合、パラメーターの設定が役立ちます。クラスの事前確率は大きく異なりますか?

classwt事前確率のベクトルが (p1,p2,p3) で、テスト セットの事前確率が (q1,q2,q3) である 3 つのクラスを持つデータセットでモデルをトレーニングする場合、どのように設定すればよいですか?