Web サイトまたは RSS フィードを取得し、フィードや Web サイトのコンテンツを解析し、適切な情報をすべて抽出してデータベースに保存する Web スクレーパーを作成しました。これは、実際の目的を持たないインテリジェントで匿名の Web スクレイパーを構築できるかどうかを確認するための個人的な実験であり、自分がどれだけ進歩できるかを確認するためのものです。その後、他の人が学習できるようにコードをオープン ソース化します。
問題は、現在 3 つのニュース Web サイトでスクレイピングを行っていることです。ニュース速報に関しては、3 つの Web サイトすべて (特に大きなニュースの場合) がすべて、ニュースの独自の解釈を書いている可能性が高いですが、最終的には同じニュースです。
私は、引き込まれている記事がすでに話され、別のニュース Web サイトからインポートされ、おそらくそのリンクが記事に関連付けられている場合 (他のサイトも次のように書いています) を可能な限り検出できるソリューションを考え出そうとしています。これ: リンク 1、リンク 2)。
1 つまたは複数のコンテンツが事実上同一であるかどうかを検出する、実証済みの方法はありますか? 私はいくつかの疑似コードを書きましたが、残念ながら、私はそれをうまく機能させるほど賢い開発者ではありません。
ここに私の考えがあります:
- Web サイトへのリンクが解析されます
- 一般的な単語は削除され、キーワードは残されます (会社名、国など)
- 残りの単語がカウントされ、スコアが計算されます
ここで私の思考が障害にぶつかります。ページのスナップショットを効率的に作成し、それを既にインポートしたデータベース内の既存のコンテンツと比較するにはどうすればよいですか? これが私がそれを行う必要があると思う方法です。
おそらく私はこれを考えすぎており、記事に同様のタイトルがあるかどうかを確認する必要があるだけですか?