4

私は、ユーザーが提供したトピックに関するデータを収集して組み合わせる必要がある大学のプロジェクトを行っています。私が遭遇した問題は、多くの用語の Google 検索結果が低品質の自動生成されたページで汚染されており、それらを使用すると間違った事実が表示される可能性があることです。ページの品質/信頼性をどのように推定できますか?

「いや、Google のエンジニアは 10 年間この問題に取り組んでいて、解決策を求めている」と思うかもしれませんが、考えてみれば、SE は最新のコンテンツを提供し、良いページを悪いページとしてマークする必要があります。 1 つは、ユーザーが不満を抱くことです。私にはそのような制限はないので、アルゴリズムが誤っていくつかの良いページを悪いものとしてマークしたとしても、それは問題にはなりません。

以下に例を示します。入力が であるとしbuy aspirin in south laます。Google検索してみてください。最初の 3 つの結果は既にサイトから削除されていますが、4 番目の結果は興味深いものです: radioteleginen.ning.com/profile/BuyASAAspirin(アクティブなリンクを作成したくない)

テキストの最初の段落は次のとおりです。

カナダから処方薬を購入することは、現時点では米国では大きな問題です。これは、米国では処方薬の価格が急騰し、限られた収入または集中した収入しか得られない人々が必要な薬を購入するのが困難になったためです。アメリカ人はクラスの誰よりも薬にお金を払っています。

テキストの残りの部分は類似しており、関連するキーワードのリストが続きます。これは私が低品質のページだと思うものです。この特定のテキストは理にかなっているように見えますが (恐ろしいことを除いて)、私が見た他の例 (まだ見つけられていません) は、Google から一部のユーザーを獲得し、作成の 1 日後にアクセス禁止にすることを目的とした単なるゴミです。 .

4

5 に答える 5

6

N-gram 言語モデル

自動生成されたスパム ページで 1 つの n-gram 言語モデルをトレーニングし、他の非スパム Web ページのコレクションで 1 つのn-gram 言語モデルをトレーニングしてみてください。

次に、両方の言語モデルで新しいページを単純にスコアリングして、テキストがスパム Web ページまたは通常の Web コンテンツにより似ているかどうかを確認できます。

ベイズの法則によるより良いスコアリング

スパム言語モデルでテキストにスコアを付けると、そのテキストがスパム Web ページで見つかる確率の推定値が得られますP(Text|Spam)Text表記は、与えられた の確率として読み取られSpam (page)ます。非スパム言語モデルからのスコアは、非スパム Web ページでテキストを見つける確率の推定値ですP(Text|Non-Spam)

ただし、おそらく本当に必要な用語はP(Spam|Text)or ですP(Non-Spam|Text)つまり、ページに表示されるテキストが である、または指定されたページである確率SpamNon-Spamを知りたいとします。

これらのいずれかを取得するには、ベイズの法則を使用する必要があります。

           P(B|A)P(A)
P(A|B) =  ------------
              P(B)

ベイズの法則を使用すると、

P(Spam|Text)=P(Text|Spam)P(Spam)/P(Text)

P(Non-Spam|Text)=P(Text|Non-Spam)P(Non-Spam)/P(Text)

P(Spam)Web から無作為に選択されたページがスパム ページであるというあなたの以前の信念です。この量は、サンプルに含まれるスパム Web ページの数を数えることによって見積もることができます。また、精度と再現率のトレードオフを手動で調整するパラメーターとして使用することもできます。たとえば、このパラメータに高い値を指定すると、誤って非スパムとして分類されるスパム ページが少なくなり、低い値を指定すると、誤ってスパムとして分類される非スパム ページが少なくなります。

この用語P(Text)は、任意の Web ページで見つかる全体的な確率ですText。それを無視してP(Text|Spam)P(Text|Non-Spam)別のモデルを使用して決定した場合、これは として計算できますP(Text)=P(Text|Spam)P(Spam) + P(Text|Non-Spam)P(Non-Spam)。これは、バイナリ変数Spam/を合計しますNon-Spam

分類のみ

ただし、確率を他に使用しない場合は、 を計算する必要はありませんP(Text)P(Text|Spam)P(Spam)むしろ、分子と を比較するだけですP(Text|Non-Spam)P(Non-Spam)。最初のページの方が大きい場合、そのページはスパム ページである可能性が高く、2 番目のページの方が大きい場合、そのページはスパムではない可能性が高くなります。これは、両方の上記の式P(Spam|Text)同じP(Non-Spam|Text)で正規化されているため機能します。 P(Text)

ツール

このような目的で使用できるソフトウェア ツールキットに関して言えば、SRILMは開始するのに適した場所であり、非営利目的での使用は無料です。何かを商業的に使用したいが、ライセンス料を払いたくない場合は、LGPL で配布されている IRST LMを使用できます。

于 2010-05-01T20:45:26.903 に答える
3

Web ページの「品質」を定義しますか? 指標は何ですか?

誰かが果物を買おうとしている場合、「大きな甘いメロン」を検索すると、「繊維以外」の傾斜の画像を含む多くの結果が得られます。

ただし、これらのページのマークアップとホスティングは、適切なエンジニアリングである可能性があります..

しかし、HTML が「壊れている」ため、高品質で美味しくて健康的な農産物を紹介する土の農家のページは IE4.5 でしか表示されない可能性があります ...

于 2010-05-01T07:07:46.550 に答える
1

パフォーマンス関連のメトリクスを探している場合は、Y!Slow [Firefox 用プラグイン] が役立つ可能性があります。

http://developer.yahoo.com/yslow/

于 2010-05-01T21:35:06.223 に答える
1

キーワード クエリごとの各結果セットについて、別の Google クエリを実行して、このサイトにリンクしているサイトの数を見つけます。他のサイトがこのサイトにリンクしていない場合は、除外します。少なくともこれは良いスタートになると思います。

于 2010-05-01T07:45:44.430 に答える
0

教師あり学習モデルを使用して、このタイプの分類を行うことができます。一般的なプロセスは次のようになります。

  1. トレーニング用のサンプル セットを取得します。これには、カバーしたいドキュメントの例を提供する必要があります。一般化するほど、使用する必要があるサンプル セットが大きくなります。アスピリンに関連する Web サイトだけに注目したい場合は、必要なサンプル セットが縮小されます。

  2. ドキュメントから特徴を抽出します。これはウェブサイトから引っ張ってきた言葉かもしれません。

  3. ( MALLETまたはWEKA )で提供されているような分類子に機能をフィードします。

  4. k-fold cross validationなどを使用してモデルを評価します。

  5. モデルを使用して、新しい Web サイトを評価します。

良いサイトを悪いサイトとしてマークしても構わないという話をすると、これはリコールと呼ばれます。実際に返された数を返す必要があるものの測定値を思い出してください。あなたが「良い」と「悪い」とマークしたもののうち、いくつが正しかったかの精度測定。目標をより正確にすることを述べ、リコールはそれほど重要ではないため、モデルを微調整して精度を高めることができます。

于 2010-05-03T18:10:15.993 に答える