mahout - クラスタリングのために日時やその他の優先度情報を含める方法は?

Question

テキストをクラスター化したい。Mahout in Action からのテキストのみのコンテンツをクラスタリングするという概念をちょっと理解しています。

テキストだけでなく、日時、場所、一緒にいた人などの他の情報もクラスター化したいと考えています。たとえば、10 日間の遠方への訪問で作成された文書を、別のクラスターに配置したいと考えています。

日時、場所、タグ、および (自然な) テキストからベクトルを作成するための独自のツールを作成する必要があることはわかっています。どうすればこれにアプローチできますか? 組み込みツールを使用してテキストをベクトル化し、その出力を独自のベクトルに統合する必要がありますか? 寸法の重さはどうですか？

score 1 · Accepted Answer

よくわからないので、完全な実装の詳細を提供することはできませんが、パズルのピースを手伝うことができます。エンティティ (場所、時間/日付、人名など) を抽出するには、ほぼ確実に何らかのコンテキスト分析が必要になります。

これについては、OpenNLP をご覧ください。

特に、POS tagger と namefinder を見てください。

関連するエンティティを抽出したら、Mahout 分類を使用して何かを実行できる可能性があります (モデルをトレーニングするのに十分なエンティティを抽出したら) が、これはわかりません。

幸運を

1 に答える 1