ニュース サイトなどのどのページが実際のコンテンツ (つまり、記事) であるかをクローラーが識別できるようにしたいと考えています。
コンテンツの基準はサイトによって異なるようです (共通のタグ/レイアウト/プロトコルなどはありません)。Web サイトがコンテンツの一部であるかどうかをある程度確実に識別できるライブラリまたはメソッドを教えてもらえますか? 候補ページをクロールした後で、この区別を行うことはまったく問題ありません。
すでに存在するものを除いて、この分野の既存/進行中の研究への出発点にも感謝します.