問題タブ [random-forest]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - RF:1つのクラスで高いOOB精度、もう1つのクラスで非常に低い精度、大きなクラスの不均衡
ランダムフォレスト分類子は初めてです。これを使用して、2つのクラスを持つデータセットを分類しています。-特徴の数は512です。-データの比率は1:4です。つまり、データの75%は最初のクラスからのものであり、25%は2番目のクラスからのものです。-私は500本の木を使用しています。
分類器は、21.52%のアウトオブバッグエラーを生成します。最初のクラス(トレーニングデータの75%で表される)のクラスごとのエラーは0.0059です。2番目のクラスの分類エラーは非常に高いですが:0.965。
私はこの振る舞いの説明を探しています、そしてあなたが2番目のクラスの精度を改善するための提案があれば。
どうぞよろしくお願いいたします。
ありがとう
Rを使用していて、上記のテストでノードサイズ1000を使用したことを忘れてしまいました。
ここでは、10本のツリーとnodesize = 1(アイデアを与えるため)のみでトレーニングを繰り返しました。以下は、Rの関数呼び出しと混同行列です。
- randomForest(formula = Label〜。、data = chData30PixG12、ntree = 10、importance = TRUE、nodesize = 1、keep.forest = FALSE、do.trace = 50)
ランダムフォレストの種類:分類
樹木の数:10
各分割で試行された変数の数:22
エラー率のOOB推定:24.46%
混同行列:
無関係、関連、class.error
- 無関係37954、4510、0.1062076
- 関連する8775、3068、0.7409440
r - R RandomForest からの予期しない NA 出力
NAが多いデータセットを扱っています。最初の 6 列には NA がないことがわかっています。最初の列は ID 列なので省略します。
次のコードを実行して、応答列に値を持つ行のみを選択します。
次に、次のコードを使用して、randomForest のデータ セットとして sub1 を使用します。
次に、このコードを実行して、NA の出力を確認します。
入力するデータがクリーンな場合、なぜ NA を取得するのかわかりません。
助言がありますか?
r - R線形回帰テールmtryのRandomForest
RのrandomForestパッケージ(Rバージョン2.13.1、randomForestバージョン4.6-2)を回帰に使用していますが、結果に大きな偏りがあることに気づきました。予測誤差は応答変数の値に依存します。高い値は予測を下回り、低い値は予測を上回ります。最初は、これは私のデータの結果であると思いましたが、次の簡単な例は、これがランダムフォレストアルゴリズムに固有であることを示しています。
線形性に関しては、ツリーメソッドに制限があることは間違いありませんが、最も単純な回帰ツリー、たとえばRのtree()でさえ、このバイアスを示しません。コミュニティがこれに気づいていないとは想像できませんが、言及は見つかりませんでした。一般的にどのように修正されますか?コメントありがとうございます
編集:この質問の例には欠陥があります。改善された処理については、スタック交換で「Rの回帰のRandomForest-応答分布に依存するバイアス」を参照してくださいhttps://stats.stackexchange.com/questions/28732/randomforest-for-regression -in-r-response-distribution-dependent-bias
r - Rプログラミング、カレットによるランダムフォレスト
私はRの初心者であり、caretパッケージを使用してランダムフォレストアルゴリズムを実装したいと考えています。
ステップバイステップで役立つチュートリアルはありますか?
r - inRランダムフォレストモデルの重要度変数をプロットします
私はここで何が間違っているのですか?「範囲外の添え字」とはどういう意味ですか?
Rでのデータマイニングに関するRevolutionRオンラインセミナーから以下のコード(最初のブロック)の抜粋を入手しました。これを実行したRFモデルに組み込んでみようとしていますが、変数の順序を理解できません。変数の重要性をプロットしたいだけです。
コンテキストを与えるために、以下に必要なものをもう少し含めました。しかし、実際に私がエラーにしているのは、コードの3行目です。2番目のコードブロックは、作業中のデータに適用されたときに発生するエラーです。誰かが私がこれを理解するのを手伝ってもらえますか?
私のエラー:
machine-learning - ランダム フォレスト アルゴリズムにフィーチャ エラーを組み込む
ランダム フォレストを使用して多数の天体を分類していますが、比較的うまく機能しています。ただし、各機能の分散 (またはエラーバー) に関する情報を組み込むことで、パフォーマンスをさらに改善したいと考えています。
天文学では、通常、すべての測定値にエラー バーが関連付けられています。たとえば、赤色と青色を測定した場合、各色の測定値は明るさ (天文学では星の大きさ)、誤差、たとえば R 等級 14 +- 0.2、B 等級になります。 12 ± 0.15。
ランダム フォレストでエラー バーを追加の情報として使用する方法を考えたいと思います。何か案は?
r - randomForest パッケージで機能選択を行う方法は?
I'm using randomForest in order to find out the most significant variables. I was expecting some output that defines the accuracy of the model and also ranks the variables based on their importance. But I am a bit confused now. I tried randomForest and then ran importance()
to extract the importance of variables.
But then I saw another command rfcv
(Random Forest Cross-Valdidation for feature selection), which should be the most appropriate for this purpose I suppose, but the question I have regarding this is: how to get the list of the most important variables? How to see the output after running it? Which command to use?
Another thing: What is the difference between randomForest
and predict.randomForest
?
I am not very familiar with randomforest and R therefore any help would be appreciated.
Thank you in advance!
r - ROCRで使用するためにrandomForestを予測する方法は?
ROC 曲線の作成方法を理解するのに苦労しており、モデルを正しく作成していない可能性があるという結論に達しました。クラス属性「y_n」が 0 または 1 のデータセットでランダムフォレスト モデルを実行しています。予測目的でデータセットを bank_training と bank_testing に分割しました。私が行う手順は次のとおりです。
私が今までしてきたことは正しいですか?作成される bankrf.pred オブジェクトは、集合体と個人という名前の 2 つのクラスを持つリスト オブジェクトです。この2つのクラス名がどこから出てきたのかわかりませんか? さらに、実行すると:
このまとめはどういう意味ですか?データセット (トレーニングとテスト) の長さはそれぞれ 22605 と 22606 です。誰かが私に何が起こっているのか説明できれば、私はとても感謝しています. これには何か問題があると思います。
ROCR で ROC 曲線を設計しようとすると、次のコードを使用します。
ROC曲線を作成しようとする方法が間違っているだけですか、それともrandomForestで最初からですか?
random - ランダム フォレスト クエリ
私はランダムフォレストに基づくプロジェクトに取り組んでいます。ランダム フォレストの作成に関する 1 つの ppt (Rec08_Oct21.ppt)(www.cs.cmu.edu/~ggordon/10601/.../rec08/Rec08_Oct21.ppt) を見ました。質問したかった。ランダムに選択された機能とその情報ゲイン値をスキャンした後、機能 j の IG の最大値を持つ機能を選択します。では、この情報を使ってどのように分割するのでしょうか? この後どうやって進めますか?
regression - 複数の出力 (またはタスク) のランダム フォレスト回帰
d_x 入力機能と d_y 出力で複数出力の回帰の問題があります。出力には複雑な非線形相関構造があります。
ランダム フォレストを使用して回帰を実行したいと考えています。私が知る限り、回帰用のランダム フォレストは単一の出力でのみ機能するため、出力ごとに d_y ランダム フォレストをトレーニングする必要があります。これはそれらの相関を無視します。
出力相関を考慮したランダム フォレストの拡張機能はありますか? マルチタスク学習のためのガウス過程回帰のようなものかもしれません。
ありがとう。