apache - 各 Mahout クラスタのベクトル

Question

私は Apache Mahout の初心者です。名前付きベクトルのどれがどのクラスターに属しているかを理解しようとしています。インターネット上の多くのリソースはテキストドキュメントに関するもので、コマンド clusterdump を使用しています。ただし、私のデータセットは非常に巨大で、コマンドを実行すると常に Java Out Of Memory Exception が発生します。その上、clusterdump を使用しても私の質問に答えられるとは思いません。

clusteredPointsディレクトリを使用clusters-[0-9]+して、どの名前付きベクトルがどのクラスターに属しているかだけを理解できるかどうかを知りたいclusters-*-final

それが役に立てば、これまでのところ、歌を聴く習慣に基づいてユーザーのクラスターを形成しました. これを行うために、最初に NamedVectors を使用してシーケンスファイルを作成しました。NamedVector の名前は userId で、Vector 自体は、ユーザーが聴いた曲のタグの重みを含む double 配列です (例を以下に示します)。

    AR2TSU61187FB5C4F0 0.5 0.2 0.7 0.0 0.0 0.1 0.0 0.0 ...
    ...
    ...
    ...

次に、k-means を正常に実行しました。出力は、ディレクトリ clusteredPoints (part-m-00088 などの名前の 88 個のファイル) と、重心が含まれていると思われるディレクトリクラスターにあります。

助けてくれてありがとう！

apache - 各 Mahout クラスタのベクトル

1 に答える 1

Related

Reference