テキストをクラスター化したい。Mahout in Action からのテキストのみのコンテンツをクラスタリングするという概念をちょっと理解しています。
- 入力内のすべての用語のマッピング (int -> term) を作成し、辞書に格納します
- すべての入力ドキュメントを正規化されたスパース ベクトルに変換します
- クラスタリングを行う
テキストだけでなく、日時、場所、一緒にいた人などの他の情報もクラスター化したいと考えています。たとえば、10 日間の遠方への訪問で作成された文書を、別のクラスターに配置したいと考えています。
日時、場所、タグ、および (自然な) テキストからベクトルを作成するための独自のツールを作成する必要があることはわかっています。どうすればこれにアプローチできますか? 組み込みツールを使用してテキストをベクトル化し、その出力を独自のベクトルに統合する必要がありますか? 寸法の重さはどうですか?