hadoop - キー値データセットを Mahout ベクトルに表現する

Question

キーと値のペアのセットであるCSVにデータセットがあります。データセットは巨大で、値は整数と短い文字列（つまり、長いテキストではなくキーワード）の混合物であり、使用して処理したいMahout のクラスタリングアルゴリズム。

問題は、この CSV を Mahout で使用できるベクトルに変換することです。「Mahout In Action」を読んでいますが、ベクトル化には 2 つのオプションがあるようです。Mahout の DenseVector、RandomAccessSparseVector、および SequentialAccessSparseVector 実装で数値を使用するか、Vector Space Model を使用してテキストドキュメントをベクトル化します。

ベクトル化したいデータは実際にはテキストドキュメントではありませんが、多くの異なるキーと値を持つ巨大なデータセットであるため、数値にマッピングするのは困難です。この種のデータを Mahout で使用するためにベクトル化する最良の方法は何ですか?

任意のポインタをいただければ幸いです。

ありがとう

score 0 · Accepted Answer

RandomAccessSparseVector が必要になる可能性が最も高いです。

ほとんどの可能なキーは表現されないため、DenseVector ではありません。キーとして整数と文字列が混在しているため、大きなキースペースになります。
SequentialAccessSparseVector ではありません。これは、Mahout でアルゴリズムを実行する際に特定のアクセス順序をより効果的にするキースペースに自然な順序付けがないように思われるためです。

さまざまなベクトル表現を簡単に試して、どれが最高のパフォーマンスを発揮するかを確認できます。

hadoop - キー値データセットを Mahout ベクトルに表現する

1 に答える 1

Related

Reference