4

テキストをクラスター化したい。Mahout in Action からのテキストのみのコンテンツをクラスタリングするという概念をちょっと理解しています。

  1. 入力内のすべての用語のマッピング (int -> term) を作成し、辞書に格納します
  2. すべての入力ドキュメントを正規化されたスパース ベクトルに変換します
  3. クラスタリングを行う

テキストだけでなく、日時、場所、一緒にいた人などの他の情報もクラスター化したいと考えています。たとえば、10 日間の遠方への訪問で作成された文書を、別のクラスターに配置したいと考えています。

日時、場所、タグ、および (自然な) テキストからベクトルを作成するための独自のツールを作成する必要があることはわかっています。どうすればこれにアプローチできますか? 組み込みツールを使用してテキストをベクトル化し、その出力を独自のベクトルに統合する必要がありますか? 寸法の重さはどうですか?

4

1 に答える 1

1

よくわからないので、完全な実装の詳細を提供することはできませんが、パズルのピースを手伝うことができます。エンティティ (場所、時間/日付、人名など) を抽出するには、ほぼ確実に何らかのコンテキスト分析が必要になります。

これについては、OpenNLP をご覧ください。

http://opennlp.apache.org/documentation/1.5.3/manual/opennlp.html

特に、POS tagger と namefinder を見てください。

関連するエンティティを抽出したら、Mahout 分類を使用して何かを実行できる可能性があります (モデルをトレーニングするのに十分なエンティティを抽出したら) が、これはわかりません。

幸運を

于 2013-10-17T09:35:08.853 に答える