1

h2o.randomForest() を使用したランダム フォレスト モデルがあります。

ここで、h2o.predict() を使用して大量のデータをスコアリングする必要があります。いくつかの制約により、すべてのデータを一度にスコア付けすることはできません。基本的に、ループ内のさまざまなデータセットにスコアを付けたいと考えています。したがって、プロセスを高速化するために、2 つの異なる R インスタンスで同じスクリプトを実行して、複数のデータセットを同時にスコアリングしたいと考えています。しかし、それを行うと、1 つのインスタンスは正常に動作しますが、他のインスタンスでは次のエラーが発生します。両方のインスタンスでこのエラーが発生する場合があります。

Error in .h2o.__checkConnectionHealth(conn) : 
 H2O connection has been severed. Cannot connect to instance at http://127.0.0.1:54321/
Failed to connect to 127.0.0.1 port 54321: Address already in use

上記のエラーには一貫性さえありません。

私はh2oを初期化し、すべてのRインスタンスで次のように予測しています。

h2oServer = h2o.init(nthreads = -1, max_mem_size = '8g')
h2.predict(model, test_data)

どうすればこれを達成できますか?2 つの異なる R インスタンスを介して h2o クラウドを使用するにはどうすればよいですか?

ありがとう、

4

1 に答える 1

1

一般に、使用しようとしている方法ではプロセスが高速化されません。これは、単一のデータセットをスコアリングすると CPU が占有され、複数の呼び出しでは不要な競合が発生するだけだからです。

また、R 内から起動できる H2O インスタンスは 1 つだけです。複数のインスタンスを起動しようとしている場合は、コマンド ライン (java -jar h2o.jar) から実行できます。

于 2015-09-30T23:09:52.783 に答える