テキスト ストリーム クラスタリング用の軽量ツールが必要です。以前のテキスト エントリを記憶できるようにメモリを持たないという意味で軽量です。ここでのテキスト ストリームとは、英数字および半構造の文/フレーズの連続フィードを意味します。例: アプリケーションのログ。類似性ベースのクラスタリングとは、アルゴリズムがパターンの類似性を持つグループにテキストをクラスタリングする必要があることを意味します。例: text1 = 'aaaabac' と text2 = 'aaaaabac' は、1 つの文字だけが異なるため、一緒にグループ化する必要があります。シナリオは次のとおりです。最初に text1 が表示され、アルゴリズムはそれにインデックスを付ける必要があります。次に、text2 が表示されると、アルゴリズムは同じ方法を使用してインデックスを付けます。ただし、条件は、両方のインデックスが互いに近くにある必要があり、text2 を処理している間、アルゴリズムは以前のテキストで何が発生したかわかりません。これは一種のパターン類似性ベースのハッシングです。
今、私は何か役に立つものを見つけることができません。私が見つけた最良の解決策は simhash でした。 http://matpalm.com/resemblance/simhash/