皆さん、こんにちは。
私のデータは以下の形式です:
ID : VALUE(ユーザーが割り当てたタグ)
0001: "PC、THINKPAD、T500"
0002: "電話、携帯電話、IPHONE、APPLE、IPHONE5"
.......等々。
次のコードを作成するにはどうすればよいですか。
1) まず、これらをキー:値形式のシーケンス ファイルに変換します。
2) 次に、上記のシーケンス ファイルを、kmeans クラスタリングに使用されるベクトルに変換しますか?
SequenceFileFromdDirectory と SparseVectorFromSequenceFiles を調べていますが、これらは少し複雑で、今のところ読みにくいようです。
では、上記の 2 つの変換を行う方法について簡単なサンプル コードを誰か教えてもらえないでしょうか?
どうもありがとうございました!