少し前に、Text::DeDupeを使用して小さなスクリプトを作成し、ブログ投稿の重複を目にする前に削除しました。
実装の基になっている Web の構文クラスタリングに関する論文を読んだ後、重複するドキュメント (たとえば、全文ではなくブログの抜粋、引用など) を見つけられるようになりたいと思っています。
C、C++、または perl で、自分で作成する前に試すことができる他の実装を知っていますか?
少し前に、Text::DeDupeを使用して小さなスクリプトを作成し、ブログ投稿の重複を目にする前に削除しました。
実装の基になっている Web の構文クラスタリングに関する論文を読んだ後、重複するドキュメント (たとえば、全文ではなくブログの抜粋、引用など) を見つけられるようになりたいと思っています。
C、C++、または perl で、自分で作成する前に試すことができる他の実装を知っていますか?
SpotSigs は私の法案にぴったり合っているようです。以下にいくつかの参考文献を示します。
このモジュールのソース コードは、GitHub でホストされています。