similarity - 剽窃をテストするためのチャンク文書

Question

テキストファイルの盗作チェッカーを構築しています。すべての前処理 (ストップワードの削除、ステミングなど) を行い、インデックスを作成しました。フィルタリングされた結果。システムはほぼ完了しました。コーパスとユーザードキュメントを文ごとに分割しました (文の区切り文字は ? !) 結果をテストしたところ、ユーザーが句読点を変更してサービスをごまかす可能性があるため、(文ごとの) 分割方法は強力ではないことに気付きました。チャンキングに関する多くの記事を読みましたが、最善の方法は K ワードのオーバーラップでした。これは、オーバーラップを使用して単語数で分割することを意味します。私の質問は、重複した単語が類似性を最大化するため、この場合、ユーザーチャンクとコーパスチャンクの間の類似性を計算する方法です。

例: (ステミングとストップワードの削除を無視) ここでは単語数 = 4、重複 = 1 単語 (変更される可能性があります)

ユーザー文= コーパスで類似文を見つけるにはどうすればよいですか。

チャンク= どうやって見つけることができますか、似ているものを見つけることができますか、似ている文を見つけることができますか、似ている文を見つけますか、あなたの中で似ている文を見つけますか、あなたのコーパスの文を見つけますか。

これらのチャンクをコーパスに対してテストすると (コーパスにチャンクがあり、「How can I find」と表示されます)、ユーザーチャンク (how can I find, can I find similar) がコーパスチャンクと類似していることがわかりますが、両方のユーザーチャンクが冗長です。では、どうすればこの冗長性を排除できますか、長い説明で申し訳ありません。

similarity - 剽窃をテストするためのチャンク文書

0 に答える 0

Related

Reference