0

このペーパーの方法と同様に、分位点回帰フォレスト (QRF) のトレーニングを試みて、約 2 か月間 scikit-garden を使用してきました。この論文の著者は R を使用しましたが、同僚と私はすでに Python に精通しているため、scikit-garden の QRF 実装を使用することにしました。まず第一に、パッケージの状態が悪く、完全に機能していないようです (最初に実行するためにソース コードの一部を変更する必要がありました)。これは、それを機能させるための私の最後の試みのようなものです。

実行可能なデータセットの作成を担当するすべてのコードが完成したので、標準のハイパーパラメーターを使用して単純な QRF をトレーニングして、エラーの最初の推定値を取得しようとしています。これまで、最後のツリーのトレーニング中に常に停止/フリーズしているように見えるため、トレーニングの実行は 1 回も完了していません。

たとえば、8 つの CPU (各 CPU が 1 つのツリーをトレーニングする) で実行した最新のトレーニングの実行では、標準設定で 10 個のツリーを構築してトレーニングします。最後のツリーを除いて、すべてのツリーは 5 ~ 6 分以内に作成およびトレーニングされました。重要なのは、予約された 8 つの CPU のうち 1 つだけがアクティブであり、(明らかに) 100% で実行されていたことです。

非常に大きなデータセット (~2'000'000 の観測) がありますが、抜粋が小さくても、最後のツリーでフリーズします。また、最後のツリーを除いて、すべてのツリーが完全なデータセットですばやくトレーニングする必要があることも、私にはほとんど意味がありません。

以下は、主要なトレーニング コードの抜粋です。

xtrain, xtest, ytrain, ytest = train_test_split(features, target, test_size=testsize)
model = RandomForestQuantileRegressor(verbose=2, n_jobs=-1).fit(xtrain, ytrain)

ypred = model.predict(xtest)

ここに質問を投稿するのはこれが初めてです。重要な情報を忘れてしまった場合は、お知らせください。私を助けることができる人に感謝します!:)

4

0 に答える 0