私は現在、多くのテキストコンテンツを生成するストリーミングAPIに取り組んでいます。予想どおり、APIは多くの重複を提供し、重複に近いデータをフィルタリングするというビジネス要件もあります。
データストリームでの重複検出について少し調査し、安定したブルームフィルターについて読みました。安定したブルームフィルターは、偽陽性率に上限があるデータストリームで重複検出するためのデータ構造です。
しかし、私はニアデュプリケートを特定したいと思います。また、ニアエストネイバーの問題やニアデュプリケート検出で使用されるLSHやMinHashなどのハッシュアルゴリズムも調べました。
私はちょっと立ち往生していて、どのように進めるか、そして私が見ることができる論文/実装についての指針を探していますか?