hadoop - クラスタリングでの Mahout CPU 使用率

Question

mahout を使用してテキストクラスタリングを行う

私のPCデバイスとソフトウェアは以下です

サーバー:
CPU:Intel Xeon E5-2620 2GHz、RAM:64GB

ソフトウェア:
VirtualBox 上の ubuntu-12.4.1
hadoop-1.0.4、mahout-0.7

キャノピーアルゴリズムを使用して 80000 txt をクラスタリングします。しかし、それは長時間実行され、完了するのに 2 ～ 3 週間しかかかりませんが、CPU 使用率が 20% をわずかに下回ることがわかりました。

私は誰かがこの問題を抱えていることも発見しました。

しかし、私はそれを加速する方法をまだ知りません。一方、パラメータ設定が失われていますか? それとも、サーバーがこのジョブを実行するには強力ではありませんか?

score 0 · Accepted Answer

Hadoop と Mahout は、複数のコンピューターを対象としています。単一のホストでは、この種の操作用に最適化されたソフトウェアは、おそらくはるかに高速です。

Hadoop (および Mahout) は、大きすぎて 1 台のコンピューターのメモリに収まらないデータを管理します。これには、データをファイルに保存し、ネットワーク経由で他のホストに送信する必要があります。

ここで、中間結果を繰り返し書き込むというこのアプローチを行う場合、そうする必要がなく、もちろん、すべてをインメモリで行う場合よりも遅くなります。

CPU が十分に使用されていないため、別の場所にボトルネックがあるはずだと推測できます。ディスクIOを見てください。これはおそらく現在の制限要因です。

1 に答える 1