php - PHP を使用して重複コンテンツをインテリジェントに検出する

Question

Web サイトまたは RSS フィードを取得し、フィードや Web サイトのコンテンツを解析し、適切な情報をすべて抽出してデータベースに保存する Web スクレーパーを作成しました。これは、実際の目的を持たないインテリジェントで匿名の Web スクレイパーを構築できるかどうかを確認するための個人的な実験であり、自分がどれだけ進歩できるかを確認するためのものです。その後、他の人が学習できるようにコードをオープンソース化します。

問題は、現在 3 つのニュース Web サイトでスクレイピングを行っていることです。ニュース速報に関しては、3 つの Web サイトすべて (特に大きなニュースの場合) がすべて、ニュースの独自の解釈を書いている可能性が高いですが、最終的には同じニュースです。

私は、引き込まれている記事がすでに話され、別のニュース Web サイトからインポートされ、おそらくそのリンクが記事に関連付けられている場合 (他のサイトも次のように書いています) を可能な限り検出できるソリューションを考え出そうとしています。これ: リンク 1、リンク 2)。

1 つまたは複数のコンテンツが事実上同一であるかどうかを検出する、実証済みの方法はありますか? 私はいくつかの疑似コードを書きましたが、残念ながら、私はそれをうまく機能させるほど賢い開発者ではありません。

ここに私の考えがあります：

Web サイトへのリンクが解析されます
一般的な単語は削除され、キーワードは残されます (会社名、国など)
残りの単語がカウントされ、スコアが計算されます

ここで私の思考が障害にぶつかります。ページのスナップショットを効率的に作成し、それを既にインポートしたデータベース内の既存のコンテンツと比較するにはどうすればよいですか? これが私がそれを行う必要があると思う方法です。

おそらく私はこれを考えすぎており、記事に同様のタイトルがあるかどうかを確認する必要があるだけですか?

score 1 · Accepted Answer

私のアプローチは、単一の Web サイトからの個々のスクラップ結果を分析し、資格情報やその他の一般的なさまざまな項目を除外することです。

今。残りのうち、各ニュース記事のプロファイリングを作成します。これは、個々のストーリーで見つかった用語に重み付けされた優先度によって行うことができます。辞書に載っていない用語 (会社名、個人名など) に重みを付け、都市名、地域に重みを付けます。これらの辞書に載っていない用語を相互に照合し、技術用語と一致させます。

私の経験では、これらのような辞書に載っていない用語を一致させることで、問題の少なくとも 50% が解決され、プロファイルを作成することもすべて解決されると言っています。

php - PHP を使用して重複コンテンツをインテリジェントに検出する

1 に答える 1

Related

Reference