3

テキスト ストリーム クラスタリング用の軽量ツールが必要です。以前のテキスト エントリを記憶できるようにメモリを持たないという意味で軽量です。ここでのテキスト ストリームとは、英数字および半構造の文/フレーズの連続フィードを意味します。例: アプリケーションのログ。類似性ベースのクラスタリングとは、アルゴリズムがパターンの類似性を持つグループにテキストをクラスタリングする必要があることを意味します。例: text1 = 'aaaabac' と text2 = 'aaaaabac' は、1 つの文字だけが異なるため、一緒にグループ化する必要があります。シナリオは次のとおりです。最初に text1 が表示され、アルゴリズムはそれにインデックスを付ける必要があります。次に、text2 が表示されると、アルゴリズムは同じ方法を使用してインデックスを付けます。ただし、条件は、両方のインデックスが互いに近くにある必要があり、text2 を処理している間、アルゴリズムは以前のテキストで何が発生したかわかりません。これは一種のパターン類似性ベースのハッシングです。

今、私は何か役に立つものを見つけることができません。私が見つけた最良の解決策は simhash でした。 http://matpalm.com/resemblance/simhash/

4

2 に答える 2

2

問題は少し指定不足です。以前のエントリを覚えていない場合、見たクラスターをどのように覚えていますか? 特に、通常は、かなりの量の「類似」アイテムが表示された場合にのみ、クラスターと見なされます。よくあることとそうでないことの「記憶」が少なくともある程度なければ、これを行うことはできません。したがって、実際にメモリを持たない合理的なクラスタリング アルゴリズムはありません文字どおりのオブジェクトを暗記することではないかもしれませんが、要約を暗記することはそれほど違いはありません。ハッシュとは、以前に見たデータの少なくとも一部を記憶することを意味します。しかし、データの統計的に有意なランダムな部分を記憶することは、それを正確に記憶することよりも多くの利点があるのでしょうか?

起こっていることの多くは、物事を記憶していないふりをしていますが、実際にはデータを別の方法で記憶しているだけです. しかし、それが公開される限り、それは成功と見なされるべきです. たとえそれが実際には機能しないとしても。

于 2012-06-22T23:34:10.220 に答える
0

あなたが説明したことは、インクリメンタル クラスタリングまたはデータ ストリーム クラスタリングと呼ばれるものだと思います。

于 2012-06-22T23:48:14.157 に答える