私たちは一種の文書検索エンジンに取り組んでいます - 主にユーザーが提出した MS Word 文書の索引付けに焦点を当てています。
キーワード詰め込みの悪用があることに気付きました。
私たちは主に 2 種類の虐待を特定しました。
- 何度も何度も同じ言葉を繰り返す
- ドキュメントにまとめて追加された多くの無関係な用語
ドキュメントの背景色と同じフォント色のテキストを追加するか、フォント サイズを 1px などに設定することで、これら 2 つの形式の悪用が可能になります。
背景色がテキストの色と同じかどうかを判断する際は、複雑な MS ワード レイアウト (フォント サイズについても同様) を考えると注意が必要です。カットオフを大きく設定しすぎます。
私の質問は、この種のキーワードの詰め込みの影響を軽減するために使用できる標準化された前処理または統計分析手法はありますか?
任意のガイダンスをいただければ幸いです。