1

テキストファイルの盗作チェッカーを構築しています。すべての前処理 (ストップ ワードの削除、ステミングなど) を行い、インデックスを作成しました。フィルタリングされた結果。システムはほぼ完了しました。コーパスとユーザー ドキュメントを文ごとに分割しました (文の区切り文字は ? !) 結果をテストしたところ、ユーザーが句読点を変更してサービスをごまかす可能性があるため、(文ごとの) 分割方法は強力ではないことに気付きました。チャンキングに関する多くの記事を読みましたが、最善の方法は K ワードのオーバーラップでした。これは、オーバーラップを使用して単語数で分割することを意味します。私の質問は、重複した単語が類似性を最大化するため、この場合、ユーザー チャンクとコーパス チャンクの間の類似性を計算する方法です。

: (ステミングとストップ ワードの削除を無視) ここでは単語数 = 4、重複 = 1 単語 (変更される可能性があります)

ユーザー文= コーパスで類似文を見つけるにはどうすればよいですか。

チャンク= どうやって見つけることができますか、似ているものを見つけることができますか、似ている文を見つけることができますか、似ている文を見つけますか、あなたの中で似ている文を見つけますか、あなたのコーパスの文を見つけますか。

これらのチャンクをコーパスに対してテストすると (コーパスにチャンクがあり、「How can I find」と表示されます)、ユーザー チャンク (how can I find, can I find similar) がコーパス チャンクと類似していることがわかりますが、両方のユーザー チャンクが冗長です。では、どうすればこの冗長性を排除できますか、長い説明で申し訳ありません。

4

0 に答える 0