2

イベントと競合するリスク、およびイベントまでの時間変数 (生存分析) を含む 500,000 の観測値を含むデータ セットがあります。

サバイバル ランダム フォレストを実行したい。

R パッケージrandomForestSRCは最適ですが、予測子の数を 15 から 20 に制限しても、メモリの制限 (100,000 は 40 GB の RAM を使用) のため、100,000 行を超える行を使用することはできません。

解決策を見つけるのに苦労しています。誰かお勧めはありますか?

h2oとを調べましたがspark mllib、どちらもサバイバル ランダム フォレストをサポートしていません。

理想的には、ある程度 R ベースのソリューションを探していますが、大規模なデータと競合するリスクのランダム フォレストを使用する方法を誰かが知っている場合は、他のことを喜んで調査します。

4

1 に答える 1