2

キーと値のペアのセットであるCSVにデータセットがあります。データセットは巨大で、値は整数と短い文字列(つまり、長いテキストではなくキーワード)の混合物であり、使用して処理したいMahout のクラスタリング アルゴリズム。

問題は、この CSV を Mahout で使用できるベクトルに変換することです。「Mahout In Action」を読んでいますが、ベクトル化には 2 つのオプションがあるようです。Mahout の DenseVector、RandomAccessSparseVector、および SequentialAccessSparseVector 実装で数値を使用するか、Vector Space Model を使用してテキスト ドキュメントをベクトル化します。

ベクトル化したいデータは実際にはテキスト ドキュメントではありませんが、多くの異なるキーと値を持つ巨大なデータ セットであるため、数値にマッピングするのは困難です。この種のデータを Mahout で使用するためにベクトル化する最良の方法は何ですか?

任意のポインタをいただければ幸いです。

ありがとう

4

1 に答える 1

0

RandomAccessSparseVector が必要になる可能性が最も高いです。

  • ほとんどの可能なキーは表現されないため、DenseVector ではありません。キーとして整数と文字列が混在しているため、大きなキースペースになります。
  • SequentialAccessSparseVector ではありません。これは、Mahout でアルゴリズムを実行する際に特定のアクセス順序をより効果的にするキースペースに自然な順序付けがないように思われるためです。

さまざまなベクトル表現を簡単に試して、どれが最高のパフォーマンスを発揮するかを確認できます。

于 2014-11-12T16:01:37.307 に答える