http://www.bbc.co.uk/などの記事の Web サイトからコンテンツ構造を判断するのに役立つ Python ツールを探しています。ボイラープレート除去ライブラリ - Boilerpipe を使用して、Web ページから不要なもの (バナー、リンク、写真など) を取り除きました。関連するコンテンツしかない場合、タイトル、作成者、日付、記事の更新日、記事自体の文字列を自動的に判断したいと考えています。問題は、透明な記事ページに使用するだけでなく、ほとんどの情報が<title>Title</title>
. などのタグから判断できるようにしたい<div>28.11.2011<p>John Cusack on Syria conflict</div>
です。それを助けることができるツールはありますか?