3

少し前に、Text::DeDupeを使用して小さなスクリプトを作成し、ブログ投稿の重複を目にする前に削除しました。

実装の基になっている Web の構文クラスタリングに関する論文を読んだ後、重複するドキュメント (たとえば、全文ではなくブログの抜粋、引用など) を見つけられるようになりたいと思っています。

C、C++、または perl で、自分で作成する前に試すことができる他の実装を知っていますか?

4

1 に答える 1

2

SpotSigs は私の法案にぴったり合っているようです。以下にいくつかの参考文献を示します。

このモジュールのソース コードは、GitHub でホストされています。

http://github.com/jzawodn/perl-text-spotsig

于 2010-04-26T17:44:36.187 に答える