text - 類似性に基づくテキストストリームクラスタリングアルゴリズムに、最近のブレークスルーはありましたか?

Question

テキストストリームクラスタリング用の軽量ツールが必要です。以前のテキストエントリを記憶できるようにメモリを持たないという意味で軽量です。ここでのテキストストリームとは、英数字および半構造の文/フレーズの連続フィードを意味します。例: アプリケーションのログ。類似性ベースのクラスタリングとは、アルゴリズムがパターンの類似性を持つグループにテキストをクラスタリングする必要があることを意味します。例: text1 = 'aaaabac' と text2 = 'aaaaabac' は、1 つの文字だけが異なるため、一緒にグループ化する必要があります。シナリオは次のとおりです。最初に text1 が表示され、アルゴリズムはそれにインデックスを付ける必要があります。次に、text2 が表示されると、アルゴリズムは同じ方法を使用してインデックスを付けます。ただし、条件は、両方のインデックスが互いに近くにある必要があり、text2 を処理している間、アルゴリズムは以前のテキストで何が発生したかわかりません。これは一種のパターン類似性ベースのハッシングです。

今、私は何か役に立つものを見つけることができません。私が見つけた最良の解決策は simhash でした。 http://matpalm.com/resemblance/simhash/

score 2 · Accepted Answer

問題は少し指定不足です。以前のエントリを覚えていない場合、見たクラスターをどのように覚えていますか? 特に、通常は、かなりの量の「類似」アイテムが表示された場合にのみ、クラスターと見なされます。よくあることとそうでないことの「記憶」が少なくともある程度なければ、これを行うことはできません。したがって、実際にメモリを持たない合理的なクラスタリングアルゴリズムはありません。文字どおりのオブジェクトを暗記することではないかもしれませんが、要約を暗記することはそれほど違いはありません。ハッシュとは、以前に見たデータの少なくとも一部を記憶することを意味します。しかし、データの統計的に有意なランダムな部分を記憶することは、それを正確に記憶することよりも多くの利点があるのでしょうか?

起こっていることの多くは、物事を記憶していないふりをしていますが、実際にはデータを別の方法で記憶しているだけです. しかし、それが公開される限り、それは成功と見なされるべきです. たとえそれが実際には機能しないとしても。

score 0 · Accepted Answer

あなたが説明したことは、インクリメンタルクラスタリングまたはデータストリームクラスタリングと呼ばれるものだと思います。

text - 類似性に基づくテキスト ストリーム クラスタリング アルゴリズムに、最近のブレークスルーはありましたか?

2 に答える 2

Related

Reference

text - 類似性に基づくテキストストリームクラスタリングアルゴリズムに、最近のブレークスルーはありましたか?