重複の可能性:
Python Parsing Source Code (Python) Approach を使用して HTML ファイルからテキストを抽出する方法
: Beautiful Soup、lxml、html5lib の違いは?
現在、ソース コードが 200,000 行のほぼすべて (すべてではないにしても) の HTML である大きな Web ページがあります。より具体的には、コンテンツが改行で区切られた数千ブロックのテキストである Web ページです (ただし、改行は具体的にコンテンツの区切りを意味するわけではありません)。
私の主な目的は、Web ページをコピーしてテキスト エディターに貼り付けるように、ソース コードからテキストを抽出することです。私が使用したい別の解析関数があります。これは、もともとソース コードではなく、コピー/貼り付けされたテキストを取り込んだものです。
これを行うために、私は現在 urllib2 を使用しており、Beautiful Soup で .get_text() を呼び出しています。問題は、Beautiful Soup がコードに膨大な量の空白を残しており、結果を 2 番目の「テキスト」パーサーに渡すのが難しいことです。HTML の解析についてかなりの調査を行いましたが、率直に言って、この問題を簡単に解決する方法がわかりません。さらに、lxml のようなインポートを使用してテキストを抽出する方法について少し混乱しています。
tl; dr: Web ページで [すべて選択]、[コピー]、[貼り付け] を行ったときのような結果を得る方法はありますか?