python - Python で Web 記事から構造を見つける

Question

http://www.bbc.co.uk/などの記事の Web サイトからコンテンツ構造を判断するのに役立つ Python ツールを探しています。ボイラープレート除去ライブラリ - Boilerpipe を使用して、Web ページから不要なもの (バナー、リンク、写真など) を取り除きました。関連するコンテンツしかない場合、タイトル、作成者、日付、記事の更新日、記事自体の文字列を自動的に判断したいと考えています。問題は、透明な記事ページに使用するだけでなく、ほとんどの情報が<title>Title</title>. などのタグから判断できるようにしたい<div>28.11.2011<p>John Cusack on Syria conflict</div>です。それを助けることができるツールはありますか？

score 0 · Accepted Answer

スクレイピーはそのようなもののためのものではありませんか？http://scrapy.org/

python - Python で Web 記事から構造を見つける

2 に答える 2

Related

Reference