HTMLファイルからテキストを読み取り、分析を行っています。これらの .html ファイルはニュース記事です。
コード:
html = open(filepath,'r').read()
raw = nltk.clean_html(html)
raw.unidecode(item.decode('utf8'))
今、広告や見出しなどの残りのテキストではなく、記事のコンテンツだけが必要です.Pythonで比較的正確に行うにはどうすればよいですか?
Jsoup(Java API) やbolierなどのツールをいくつか知っていますが、Python でやりたいと思っています。bs4を使用していくつかの手法を見つけることができましたが、1 つのタイプのページに限定されていました。また、多数の情報源からのニュース ページがあります。また、存在するサンプル コードの例が不足しています。
私はPythonでhttp://www.psl.cs.columbia.edu/wp-content/uploads/2011/03/3463-WWWJ.pdfのようなものを探しています。
編集: 理解を深めるために、次のリンクのコンテンツを抽出するサンプル コードを記述してください http://www.nytimes.com/2015/05/19/health/study-finds-dense-breast-tissue-isnt-always -a-high-cancer-risk.html?src=me&ref=general