問題タブ [random-forest]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
5 に答える
83979 参照

r - ランダム フォレスト回帰モデルの ntree と mtry の値の設定

RパッケージrandomForestを使用して、生物学データの回帰を行っています。トレーニング データのサイズは38772 X 201です。

ntree私はちょうど疑問に思いました---木の数とレベルごとの変数の数の良い値は何でしょうmtryか? そのようなパラメータ値を見つけるための近似式はありますか?

入力データの各行はアミノ酸配列を表す 200 文字であり、タンパク質間の距離を予測するためにそのような配列を使用する回帰モデルを構築したいと考えています。

0 投票する
2 に答える
184 参照

r - 利用可能なデータを利用し、欠落しているデータを無視して分類器を構築する

R プラットフォームで randomForest パッケージを使用してバイナリ分類器を構築しています。約 30,000 行あり、14,000 行が陽性クラス、16,000 行が陰性クラスです。分類に重要であることが知られている 15 の変数があります。

情報が欠落している追加の変数 (約 5) があります。これらの変数の値は 1 または 0 です。1 は何かが存在することを意味しますが、0 は存在するか存在しないかがわからないことを意味します。これらの変数は、1 の場合は分類にとって最も重要な変数 (分類の信頼性が向上し、サンプルが陽性クラスにある可能性が高くなります) になり、0 の場合は役に立たないことが広く知られています。行の値は 1 です。したがって、1 つの変数が役立つケースは 5% にすぎません。5 つの変数は互いに独立しているため、私が持っているデータの 15 ~ 25% でこれらが非常に役立つと期待しています。

利用可能なデータを利用する方法はありますが、単一の列に存在する欠落/不明なデータを無視する方法はありますか? あなたのアイデアや提案をいただければ幸いです。実装は、ランダム フォレストと R プラットフォームに固有である必要はありません。これが他の機械学習技術または他のプラットフォームを使用して可能であれば、それらも大歓迎です。お時間をいただきありがとうございます。よろしく

0 投票する
1 に答える
4133 参照

random - C# によるランダム デシジョン フォレストの実装

こんにちは、ALGLIB を使用して rdf を計算しようとしています。残念ながら、各トレーニング サンプルには 2 つよりも多くの変数があります。以下の関数を使用する必要がありますが、トレーニング データには 7 つの変数があります。ALGLIB の実装は、たった 2 つの変数に対して実装されていると思います。7つの可変トレーニングサンプルに使用するにはどうすればよいですか?

前もって感謝します。私のトレーニングセットに適した別のライブラリがあり、それを使用できるランダムデシジョンフォレストが実装されている場合、ALGLIBの使用を主張していません。

0 投票する
1 に答える
724 参照

r - Rでの連続したrandomForest.predict呼び出しの結果に一貫性がありません

ランダムフォレストを作成した後、それを使用して、サンプル外のテストデータセットに対して予測します。ただし、予測を連続して呼び出すと、異なる結果が生成されます。

これを非決定論的にする方法について何かアイデアはありますか?

0 投票する
5 に答える
19640 参照

r - 分類のためのRrandomForest

randomForestで分類しようとしていますが、明らかな解決策がないように見えるエラーメッセージが繰り返し表示されます(randomForestは、過去に回帰を行ったときにうまく機能しました)。以下にコードを貼り付けました。「成功」は要因であり、従属変数はすべて数値です。この分類を適切に実行する方法に関する提案はありますか?

また、データセットのサンプルは次のとおりです。

ヘッド(データ)

0 投票する
1 に答える
1784 参照

matlab - MATLAB fitensemble:各ツリーをどのように構築しますか? すべての機能または機能のサブセットに基づいていますか?

以下を使用して分類するために、matlab 2011b で「Bag」を使用して fitensemble 関数を使用しています。

fitensemble(features , classLabels,'Bag',10,'tree','type' , 'classification');

fitensememble が各決定木を構築するためにどのように機能を選択するかを誰かに知らせることができますか? 各ツリーのすべての機能のサブセットを選択しますか (元の Breiman のランダム フォレストのように) ? それとも、各ツリーを構築するためにすべての機能を選択しますか?

たとえば、データ セットに 500 個のフィーチャがある場合、すべてのツリーは 500 個のフィーチャに基づいて構築されますか、または各ツリーを構築するために 500 個のフィーチャのサブセットがランダムに選択されますか?

0 投票する
2 に答える
5092 参照

python - scikitランダムフォレストからの出力を理解するのに問題があります

次のようなデータセットがあるとします。

ここで、最初の11列は特徴(酸性度、塩化物など)を示し、最後の列はアイテムに与えられた評価(5または6など)を示します。

データセットは次のようにトレーニングされます。

次のようなものを印刷します

さて、なぜそれは単一の分類、例えば5または6の評価を出力しないのですか?

ドキュメントには、「入力サンプルの予測クラス確率は、森の木の平均予測クラス確率として計算されます」と書かれていますが、私は理解するのに苦労しています。

使用する場合

それはあなたが期待するようなものを印刷します-少なくともそれは評価のように見えます-しかし私はまだすべての機能を考慮した単一の予測ではなく機能ごとの予測がある理由を理解していませんか?

0 投票する
3 に答える
10210 参照

python - PythonScikitランダムフォレストリグレッサエラー

csvからトレーニングとテストデータをロードし、scikit / sklearnでランダムフォレストリグレッサを実行してから、テストファイルからの出力を予測しようとしています。

TrainLoanData.csvファイルには5つの列が含まれています。最初の列は出力であり、次の4列は機能です。TestLoanData.csvには、機能の4つの列が含まれています。

コードを実行すると、次のエラーが発生します。

これは何を意味するのでしょうか?

これが私のコードです:

0 投票する
0 に答える
759 参照

machine-learning - ランダムフォレストの結果を報告する

これは、Rのランダムフォレストの出力に対応する質問です。

、、が何を表しているのか理解していginiます。私は多数の異なる応答変数を持っており、多くの異なるランダムフォレストを(各コースで別々に) 計算しています。impuritymean accuracy plots

結果として得られる上位の予測子は、通常、2つの出力プロット間でかなり類似しています(平均精度とノード純度)。私を混乱させているのは、ノードの純度が高い(その後に大きなブレークが続く)単一の変数を持つ1つの出力がありますが、平均精度プロットのこの同じ変数は非常に低いです。ほぼ底に。

私が読んだことや、このフォーラムですでに与えられている他の回答を正しく解釈している場合は、

  • 同じ変数の重要度(ノードの純度)は高いが、精度は非常に低いのはなぜですか?これは私には意味がないようで、私の結果を疑わせます。

どんな洞察も大歓迎です!

0 投票する
0 に答える
3561 参照

visual-c++ - OpenCV でのランダム フォレストを使用した画像分類

Canyone は、OpenCV のカメラ入力ビデオでランダム フォレスト分類子をトレーニングする方法を教えてくれますか? 私がやりたいことは次のとおりです。

  1. VideoCapture オブジェクトからフレームを取得する

  2. フレーム内のオブジェクトを見つける

  3. オブジェクトの周りにバウンディング ボックスを描画し、それをサンプリングします。

  4. サンプルをバッファに保存し、オンラインでランダム フォレスト分類器をトレーニングします。

  5. オブジェクト モデルを更新する

  6. 更新されたオブジェクト モデルを使用して次のフレームでオブジェクトを追跡する

  7. 手順 2 に戻る

このアプローチは TLD プレデター アルゴリズムから着想を得ており、私も openTLD で略奪しましたが、openTLD の実装をよく理解していないため、自分で作成したいと考えています。

haar ベースのカスケード分類器を使用してステップ 3 まで完了しましたが、ランダム フォレストでの画像分類とモデルの更新について少し迷っています。

これに関するヘルプとガイダンスは大歓迎です! 心から感謝します!