私は、ユーザーが提供したトピックに関するデータを収集して組み合わせる必要がある大学のプロジェクトを行っています。私が遭遇した問題は、多くの用語の Google 検索結果が低品質の自動生成されたページで汚染されており、それらを使用すると間違った事実が表示される可能性があることです。ページの品質/信頼性をどのように推定できますか?
「いや、Google のエンジニアは 10 年間この問題に取り組んでいて、解決策を求めている」と思うかもしれませんが、考えてみれば、SE は最新のコンテンツを提供し、良いページを悪いページとしてマークする必要があります。 1 つは、ユーザーが不満を抱くことです。私にはそのような制限はないので、アルゴリズムが誤っていくつかの良いページを悪いものとしてマークしたとしても、それは問題にはなりません。
以下に例を示します。入力が であるとしbuy aspirin in south la
ます。Google検索してみてください。最初の 3 つの結果は既にサイトから削除されていますが、4 番目の結果は興味深いものです: radioteleginen.ning.com/profile/BuyASAAspirin
(アクティブなリンクを作成したくない)
テキストの最初の段落は次のとおりです。
カナダから処方薬を購入することは、現時点では米国では大きな問題です。これは、米国では処方薬の価格が急騰し、限られた収入または集中した収入しか得られない人々が必要な薬を購入するのが困難になったためです。アメリカ人はクラスの誰よりも薬にお金を払っています。
テキストの残りの部分は類似しており、関連するキーワードのリストが続きます。これは私が低品質のページだと思うものです。この特定のテキストは理にかなっているように見えますが (恐ろしいことを除いて)、私が見た他の例 (まだ見つけられていません) は、Google から一部のユーザーを獲得し、作成の 1 日後にアクセス禁止にすることを目的とした単なるゴミです。 .