問題タブ [r-caret]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - R のメモリの問題
350k の観測値と 3 つの機能 (3 つすべてが 40、50、100 レベルのカテゴリ) を含むトレーニング セットで k-NN モデルをトレーニングしようとしています。ターゲット ベクトルが連続しているため、caret パッケージの knnreg を使用しています。
私のマシンはかなり弱く、4 GB の RAM を搭載しています。同じデータセットで他のアルゴリズムも試しましたが、同様のエラーが発生しました。
予測関数を実行するとエラーが発生することに、私はそれほど驚いていません。この例では、1 つの観測のみを実行しています。
- 予測関数 (knnreg ではなく) を実行するとエラーが発生するのはなぜですか?
- これを回避する方法はありますか?
r - R でパッケージのソース コードを表示できない
関数 knnreg のソース コードをキャレットで表示しようとしています。
何が起こっていますか?ソースコードはどこにありますか?
r - マルチコアを使用すると、キャレットパッケージのパフォーマンスが非常に遅くなります
キャレットパッケージの著者による本「Applied Predictive Modeling 」を読んでいます。
svm でのトレーニングの最初の例は、64 ビット i7 16 GB xubuntu デスクトップで実行するのに数時間かかります [4 時間後にあきらめました]。これは「おもちゃ」のデータセット [800 行、42 変数] であるため、妥当な時間内にこれを実行する方法が必要です。
質問: このコードが正しい場合、妥当な時間内に実行するにはどうすればよいですか?
r - 苦労しているキャレットパッケージ経由のC50
C50 パッケージのキャレットトレインラッパーに苦労しています。予測モデルを適合させようとしています
と
私は得る
私のセッション情報は
前もって感謝します
r - キャレットを使用して R で k 倍 CV の折り畳みを作成する
http://archive.ics.uci.edu/ml/machine-learning-databases/undocumented/connectionist-bench/sonar/で入手可能なデータを使用して、いくつかの分類方法/ハイパーパラメーターの k 倍 CV を作成しようとしています。 sonar.all-data .
このセットは 208 行で構成され、それぞれに 60 の属性があります。read.table 関数を使用して data.frame に読み込んでいます。
次のステップは、データを k 個のフォールドに分割することです。たとえば、k = 5 とします。最初の試みは、
これには2つの問題がありました。1 つ目は、折り目の長さが互いに隣り合っていないことです。
もう1つは、属性インデックスに従ってデータが明らかに分割されたということですが、データ自体を分割したいと考えています。次を使用して、data.frameを転置することで、次のように考えました。
しかし、createFolds 関数を呼び出すと、次のようになります。
長さの問題は解決されましたが、それでも 208 データが適切に分割されません。
私は何ができますか?キャレットパッケージはおそらく最も適切ではないでしょうか?
r - キャレットのトレインと混乱マトリックス関数
Max Khun の Applied Predictive Modeling の本に従って、キャレットがどのように機能するかを学ぼうとしていますが、キャレットの混乱マトリックス関数がどのように機能するかを理解できませんでした。
次のように glmnet を使用して、8190 行と 1073 列のトレーニング データ セット (training[, fullSet]) をトレーニングしました。
次に、適合から混同行列を出力しました。
混同行列を見たところ、次の結果が得られました。
しかし、混同テーブルに 1757 個の観測値 (1757 = 507 + 208 + 63 + 779) しかない理由がわかりません。これは、キャレットの混乱マトリックス.トレインのドキュメントに、「トレインをモデルの調整に使用すると、混同マトリックス セルを追跡する」と記載されているためです。ホールドアウトサンプルのエントリー。」トレーニング データ セットには 8190 行があり、10 倍の CV を使用したため、混同行列は 819 データ ポイント (819 = 8190 / 10) に基づく必要があると考えましたが、そうではありません。
明らかに、キャレットのtrainControlまたはtrainがどのように機能するかを完全には理解していません。誰かが私が誤解したことを説明できますか?
どうもありがとうございました。
イ・ヨンジン
r - R でホールドアウト検証を実装する方法
Sonar
データを使用していて、R でホールドアウト検証を行いたいとしましょう。fromパッケージを使用createFolds
してデータを分割しました。caret
folds <- createFolds(mydata$Class, k=5)
mydata[i]
次に、フォールドをテストデータとして正確に使用し、トレーニングデータとして使用して分類器をトレーニングしたいと思いmydata[-i]
ます。
最初にこのtrain
関数を使用することを考えましたが、ホールドアウト検証のサポートが見つかりませんでした。ここで何か不足していますか?
また、関数でデータを分割する代わりに、事前定義されたフォールドをパラメーターとして正確に使用できるようにしたいと考えています。誰か考えがありますか?