3

Weka ベースの分類器の入力モデルとして、Mahout デシジョン ツリー トレーニング プロセスの出力モデルを使用したいと考えています。

何百万ものトレーニング レコードに基づく複雑なデシジョン ツリーのトレーニングは、単一ノードの Weka 分類器ではほとんど実用的ではないため、Mahout を使用して、たとえばRandom Forest Partial Implementationを使用してモデルを構築したいと考えています。

上記のアルゴリズムはトレーニング中に問題になる可能性がありますが、単一のマシンで Weka を使用して予測に使用するのはかなり簡単です。

Mahout wiki サイトでは、インポート用のデータ形式には Weka ARFF 形式が含まれますが、エクスポート用ではないと記載されています。

Mahoutの既存の実装の一部を使用して、単純な Wekaベースのシステムで本番環境で使用されるモデルをトレーニングすることは可能ですか?

4

1 に答える 1

1

私はあなたが求めていることをすることは不可能だと思います:.arffはデータ形式であり、インポート/エクスポートメニューの他のすべてのオプションもそうです。Wekaが保存/ロードできる分類子は、実際には、 JavaのインターフェースClassifierを使用してファイルに書き込まれるWekaのJavaオブジェクトです。Serializableそれらは、それらを作成するJVMよりも長持ちするJavaオブジェクトであるため、それほど移植性の高いツリーではありません。したがって、あなたが望むことをするためには、MahoutかWekaのどちらかがお互いのコードを生成/読み取ることができなければならず、それは私がドキュメントを見つけることができるものではありません。

私の経験では、数百万のトレーニングレコード(それぞれ最大45の数値機能/列で構成)で、デフォルトオプションを使用したWekaのランダムフォレストの実装は非常に高速であるため(単一の2.26GHzコアで数秒で動作)、必要ない場合がありますマハウトに迷惑をかける。ただし、データセットの結果は異なる場合があります。

于 2012-05-25T17:51:59.657 に答える