0

http://www.bbc.co.uk/などの記事の Web サイトからコンテンツ構造を判断するのに役立つ Python ツールを探しています。ボイラープレート除去ライブラリ - Boilerpipe を使用して、Web ページから不要なもの (バナー、リンク、写真など) を取り除きました。関連するコンテンツしかない場合、タイトル、作成者、日付、記事の更新日、記事自体の文字列を自動的に判断したいと考えています。問題は、透明な記事ページに使用するだけでなく、ほとんどの情報が<title>Title</title>. などのタグから判断できるようにしたい<div>28.11.2011<p>John Cusack on Syria conflict</div>です。それを助けることができるツールはありますか?

4

2 に答える 2

0

スクレイピーはそのようなもののためのものではありませんか?http://scrapy.org/

于 2013-02-28T13:44:54.190 に答える