algorithm - 進化するデータストリームをクラスタ化する方法

Question

データストリームとして読み取るテキストドキュメントを段階的にクラスター化したいのですが、問題があるようです。用語の重み付けオプションのほとんどは、TF-IDF をフィーチャの重みとして使用するベクトル空間モデルに基づいています。ただし、この場合、既存の属性のIDFは新しいデータポイントごとに変化するため、以前のクラスタリングは有効ではなくなり、固定次元の静的データを想定するCluStream、CURE、BIRCHなどの一般的なアルゴリズムは適用できません。これに関連する既存の研究に私をリダイレクトしたり、提案をしたりできますか? ありがとう！

score 4 · Accepted Answer

見ましたか

TF-ICF: 動的データストリームをクラスタリングするための新しい用語重み付けスキーム

score 1 · Accepted Answer

ここに私の頭の上のアイデアがあります：

入力データはどうですか？少なくとも同様のテーマだと思いますので、基本フレーズ辞書から始めて、それをidf. Apache Luceneは優れたインデックス作成エンジンです。基本辞書があるので、 kmeansなどを実行できます。ドキュメントが入ってくると、ある頻度でディクショナリを再構築し (別のスレッド/マシン/などにオフロードできます)、再クラスタリングする必要があります。

Lucene のような高性能で柔軟なエンジンでインデックス付けされたデータを使用すると、新しいドキュメントのインデックス付け中でもクエリを実行できます。さまざまなクラスタリングアルゴリズムについて調査すれば、良いアイデアが見つかるはずです。

いくつかの興味深い論文/リンク:

詳細情報がなければ、なぜ時々再クラスター化できなかったのかわかりません。すでに公開されているレコメンダーシステムのいくつかを見てみたいと思うかもしれません。

algorithm - 進化するデータ ストリームをクラスタ化する方法

2 に答える 2

Related

Reference

algorithm - 進化するデータストリームをクラスタ化する方法