キーと値のペアのセットであるCSVにデータセットがあります。データセットは巨大で、値は整数と短い文字列(つまり、長いテキストではなくキーワード)の混合物であり、使用して処理したいMahout のクラスタリング アルゴリズム。
問題は、この CSV を Mahout で使用できるベクトルに変換することです。「Mahout In Action」を読んでいますが、ベクトル化には 2 つのオプションがあるようです。Mahout の DenseVector、RandomAccessSparseVector、および SequentialAccessSparseVector 実装で数値を使用するか、Vector Space Model を使用してテキスト ドキュメントをベクトル化します。
ベクトル化したいデータは実際にはテキスト ドキュメントではありませんが、多くの異なるキーと値を持つ巨大なデータ セットであるため、数値にマッピングするのは困難です。この種のデータを Mahout で使用するためにベクトル化する最良の方法は何ですか?
任意のポインタをいただければ幸いです。
ありがとう