mahout を使用してテキスト クラスタリングを行う
私のPCデバイスとソフトウェアは以下です
サーバー:
CPU:Intel Xeon E5-2620 2GHz、RAM:64GB
ソフトウェア:
VirtualBox 上の ubuntu-12.4.1
hadoop-1.0.4、mahout-0.7
キャノピー アルゴリズムを使用して 80000 txt をクラスタリングします。しかし、それは長時間実行され、完了するのに 2 ~ 3 週間しかかかりませんが、CPU 使用率が 20% をわずかに下回ることがわかりました。
私は誰かがこの問題を抱えていることも発見しました 。
しかし、私はそれを加速する方法をまだ知りません。一方、パラメータ設定が失われていますか? それとも、サーバーがこのジョブを実行するには強力ではありませんか?