バイナリ機能のポイントがあります:
id, feature 1, feature 2, ....
1, 0, 1, 0, 1, ...
2, 1, 1, 0, 1, ...
行列のサイズは約20k*200kですが、スパースです。kmeansアルゴリズムによるデータのクラスタリングにMahoutを使用していますが、次の質問があります。
- kmeansはバイナリ機能の良い候補ですか?
- マンハッタン距離測度の概念を維持しながら寸法を縮小する方法はありますか(コサインや谷本の代わりにマンハッタンが必要です)
- kmeansのメモリ使用量は高く、Map / Reduceタスクごとに4GBのメモリが必要です(3kクラスターの400Mbベクターファイルの4Mbブロック)。MahoutのVectorオブジェクトがダブルエントリを使用していることを考えると、ポイントにはブールエントリだけを使用し、センターにはダブルエントリを使用する方法はありますか?