データ ストリームとして読み取るテキスト ドキュメントを段階的にクラスター化したいのですが、問題があるようです。用語の重み付けオプションのほとんどは、TF-IDF をフィーチャの重みとして使用するベクトル空間モデルに基づいています。ただし、この場合、既存の属性のIDFは新しいデータポイントごとに変化するため、以前のクラスタリングは有効ではなくなり、固定次元の静的データを想定するCluStream、CURE、BIRCHなどの一般的なアルゴリズムは適用できません。これに関連する既存の研究に私をリダイレクトしたり、提案をしたりできますか? ありがとう !
2 に答える
4
于 2010-08-30T12:10:22.637 に答える
1
ここに私の頭の上のアイデアがあります:
入力データはどうですか?少なくとも同様のテーマだと思いますので、基本フレーズ辞書から始めて、それをidf
. Apache Luceneは優れたインデックス作成エンジンです。基本辞書があるので、 kmeansなどを実行できます。ドキュメントが入ってくると、ある頻度でディクショナリを再構築し (別のスレッド/マシン/などにオフロードできます)、再クラスタリングする必要があります。
Lucene のような高性能で柔軟なエンジンでインデックス付けされたデータを使用すると、新しいドキュメントのインデックス付け中でもクエリを実行できます。さまざまなクラスタリング アルゴリズムについて調査すれば、良いアイデアが見つかるはずです。
いくつかの興味深い論文/リンク:
- http://en.wikipedia.org/wiki/Document_classification
- http://www.scholarpedia.org/article/Text_categorization
- http://en.wikipedia.org/wiki/Naive_Bayes_classifier
詳細情報がなければ、なぜ時々再クラスター化できなかったのかわかりません。すでに公開されているレコメンダー システムのいくつかを見てみたいと思うかもしれません。
于 2010-08-30T01:16:07.230 に答える