5

私たちは一種の文書検索エンジンに取り組んでいます - 主にユーザーが提出した MS Word 文書の索引付けに焦点を当てています。

キーワード詰め込みの悪用があることに気付きました。

私たちは主に 2 種類の虐待を特定しました。

  1. 何度も何度も同じ言葉を繰り返す
  2. ドキュメントにまとめて追加された多くの無関係な用語

ドキュメントの背景色と同じフォント色のテキストを追加するか、フォント サイズを 1px などに設定することで、これら 2 つの形式の悪用が可能になります。

背景色がテキストの色と同じかどうかを判断する際は、複雑な MS ワード レイアウト (フォント サイズについても同様) を考えると注意が必要です。カットオフを大きく設定しすぎます。

私の質問は、この種のキーワードの詰め込みの影響を軽減するために使用できる標準化された前処理または統計分析手法はありますか?

任意のガイダンスをいただければ幸いです。

4

4 に答える 4

4

圧縮率の概念を使用して、問題に対する驚くほど簡単な解決策があります。

Word ドキュメントをテキストに変換する場合 (オンザフライで簡単に実行できます)、それらを圧縮し (たとえば、無料の zlib ライブラリを使用)、圧縮率を確認できます。通常、通常のテキスト ドキュメントの圧縮率は約 2 であるため、重要な逸脱は、圧縮されていることを意味します。分析プロセスは非常に簡単です。私は約 10 万のテキストを分析しましたが、Python を使用して約 1 分しかかかりませんでした。

別のオプションは、ドキュメント/単語の統計的特性を調べることです。そのためには、「クリーンな」ドキュメントのサンプルを用意し、個別の単語の平均頻度と標準偏差を計算する必要があります。

それを行った後、新しいドキュメントを取得して、それを平均と偏差と比較できます。スタッフィングされたドキュメントは、その単語の平均からの偏差が非常に高い少数の単語 (1 つまたは 2 つの単語が数回繰り返されるドキュメント) または大きな偏差を持つ多くの単語 (テキストのブロックが繰り返されるドキュメント) を含むドキュメントとして特徴付けられます。

圧縮性に関する便利なリンクを次に示します。

http://www.ra.ethz.ch/cdstore/www2006/devel-www2006.ecs.soton.ac.uk/programme/files/pdf/3052.pdf

http://www.ispras.ru/ru/proceedings/docs/2011/21/isp_21_2011_277.pdf

また、おそらくエントロピーの概念を使用することもできます。たとえば、Shannon Entropy Calculation http://code.activestate.com/recipes/577476-shannon-entropy-calculation/などです。

別の可能な解決策は、品詞 (POS) タグ付けを使用することです。名詞の平均パーセンテージは、「通常の」ドキュメント間で類似していると思います ( http://www.ingentaconnect.com/content/jbp/ijcl/2007/00000012/00000001/art00004?crawler=trueによると 37% ) 。一部の POS タグのパーセンテージが高かったり低かったりすると、「詰まった」ドキュメントを検出できる可能性があります。

于 2013-07-08T10:12:56.173 に答える
1

一般的な詰め物が常に特定のサイズよりも小さいフォント サイズ、つまり実際には読みにくい 1 ~ 5 のフォント サイズを使用しているというパターンに気付いた場合は、それが「詰め込まれた部分」であると見なすことができます。

次に、フォントの色が背景色と同じかどうかを確認し、そのセクションを削除できます。

于 2013-06-06T13:19:50.300 に答える