私は Apache Mahout の初心者です。名前付きベクトルのどれがどのクラスターに属しているかを理解しようとしています。インターネット上の多くのリソースはテキスト ドキュメントに関するもので、コマンド clusterdump を使用しています。ただし、私のデータセットは非常に巨大で、コマンドを実行すると常に Java Out Of Memory Exception が発生します。その上、clusterdump を使用しても私の質問に答えられるとは思いません。
clusteredPoints
ディレクトリを使用clusters-[0-9]+
して、どの名前付きベクトルがどのクラスターに属しているかだけを理解できるかどうかを知りたいclusters-*-final
それが役に立てば、これまでのところ、歌を聴く習慣に基づいてユーザーのクラスターを形成しました. これを行うために、最初に NamedVectors を使用してシーケンス ファイルを作成しました。NamedVector の名前は userId で、Vector 自体は、ユーザーが聴いた曲のタグの重みを含む double 配列です (例を以下に示します)。
AR2TSU61187FB5C4F0 0.5 0.2 0.7 0.0 0.0 0.1 0.0 0.0 ...
...
...
...
次に、k-means を正常に実行しました。出力は、ディレクトリ clusteredPoints (part-m-00088 などの名前の 88 個のファイル) と、重心が含まれていると思われるディレクトリ クラスターにあります。
助けてくれてありがとう!