2

2 つのドキュメントからテキストを読み取って比較することにより、2 つのドキュメント間でテキストがコピーされたかどうかを判断できるアプリケーションを作成したいと考えています。誰かがこれをやろうとしたことがあるかどうか、そして同じことを処理する最善の方法は何かを知りたかった. 機械学習と自然言語処理が関係している場合: どのレベルまで?

4

2 に答える 2

1

集合論の概念のみに依存する手法があります

良いスタートとしてhttp://en.wikipedia.org/wiki/W-shinglingを試してください。

于 2012-05-12T20:06:29.340 に答える
0

Copyscape4グラムを使用して一意性を判断していると思います。

これらの文字列はN-Gramsと呼ばれます。

ただし、別のSO回答は、文字ベースでバイグラムを比較する言語に依存しないアルゴリズムにリンクされています。すでにJavaに実装されているため、時間を節約できます。

于 2012-05-12T21:28:25.597 に答える