web-scraping - 記事/コンテンツのみをクロールする

Question

ニュースサイトなどのどのページが実際のコンテンツ (つまり、記事) であるかをクローラーが識別できるようにしたいと考えています。

コンテンツの基準はサイトによって異なるようです (共通のタグ/レイアウト/プロトコルなどはありません)。Web サイトがコンテンツの一部であるかどうかをある程度確実に識別できるライブラリまたはメソッドを教えてもらえますか? 候補ページをクロールした後で、この区別を行うことはまったく問題ありません。

すでに存在するものを除いて、この分野の既存/進行中の研究への出発点にも感謝します.

score 0 · Accepted Answer

Boilerpipe フレームワークを確認することから始めることができます。彼らのプロジェクトのページから利用できるオンライン抽出デモがあります。抽出結果があまり良くない場合は、アルゴリズムを拡張する必要があります。

1 に答える 1