学生のエッセイを比較して、それらのエッセイの 1 つが盗作されていないかどうかを確認したいとしましょう。素朴な方法でこれを行うにはどうすればよいでしょうか (つまり、あまり複雑なアプローチではありません)。もちろん、エッセイで使用されている単語を比較するような単純な方法と、圧縮関数を使用するような複雑な方法がありますが、複雑/理論をあまり使わずに盗用をチェックする他の方法は何ですか?
質問する
886 次
2 に答える
2
いくつかのアプローチを示した論文がいくつかあります。この論文を読むことをお勧めします。この 論文は、ファイル コレクション全体にわたって構築されたインデックス構造に基づくアルゴリズムを示しています。
そのため、彼らのアルゴリズムを使用して、大規模なソフトウェア システムで同様のコード フラグメントを見つけることができると述べています。インデックスが作成される前に、コレクション内のすべてのファイルがトークン化されます。これは単純な解析問題であり、線形時間で解くことができます。コレクション内の N ファイルのそれぞれについて、ファイル F_i のトークナイザの出力は、n_i トークンの文字列です。
ここにあなたが読むことができる他の論文があります
他の優れたアルゴリズムは、テスト ドキュメントと登録済みドキュメントの間で共通する一連の単語を比較することによって剽窃を検出する詐欺ベースのアルゴリズムです。当社の剽窃検出システムは、多くの情報検索システムと同様に、精度と再現率の指標で評価されます。
于 2012-12-21T20:21:57.403 に答える