ドキュメントの剽窃を検出するために、damerau leveshtein 距離アルゴリズムをシミュレートするにはどうすればよいですか? ありがとう!
1 に答える
レーベンシュタイン距離は、名前の比較やスペル チェッカーでの代替検索など、主に 2 つの文字列を比較するために使用されます。このアルゴリズムをドキュメント全体に使用して剽窃を検出することは一般的ではありません。
ただし、この地域にはいくつかの作業があります。すべてがこの記事を指しており、購読が必要です。
レーベンシュタイン距離とスミス-ウォーターマン アルゴリズムを使用した剽窃検出
http://www.computer.org/portal/web/csdl/doi/10.1109/ICICIC.2008.422
テキストの剽窃は、学界でますます懸念されている問題です。現在、最も一般的なテキストの盗作は、単語の挿入、削除、または置換を含むさまざまな小さな変更を行うことによって発生します。ただし、このような単純な変更には、過度の文字列比較が必要です。この論文では、ハイブリッド剽窃検出方法を紹介します。レーベンシュタイン距離から導出される対角線の使用と、生物学的配列の局所的類似性の識別と定量化における古典的なツールである単純化されたSmithWatermanアルゴリズムの使用を、盗作検出への応用を視野に入れて調査します。私たちのアプローチは、グローバルに関与する文字列比較を回避し、実験結果によって大幅なスピードアップをもたらす心理的要因を考慮します。結果に基づいて、レーベンシュタイン距離とスミス-ウォーターマン アルゴリズムを使用してそのような改善の実用性を示し、効率の向上を示します。将来的には、テキスト比較の分野で適切なヒューリスティックを探求することは興味深いでしょう