イベントと競合するリスク、およびイベントまでの時間変数 (生存分析) を含む 500,000 の観測値を含むデータ セットがあります。
サバイバル ランダム フォレストを実行したい。
R パッケージrandomForestSRC
は最適ですが、予測子の数を 15 から 20 に制限しても、メモリの制限 (100,000 は 40 GB の RAM を使用) のため、100,000 行を超える行を使用することはできません。
解決策を見つけるのに苦労しています。誰かお勧めはありますか?
h2o
とを調べましたがspark mllib
、どちらもサバイバル ランダム フォレストをサポートしていません。
理想的には、ある程度 R ベースのソリューションを探していますが、大規模なデータと競合するリスクのランダム フォレストを使用する方法を誰かが知っている場合は、他のことを喜んで調査します。