html2text、BeautifulSoupなどのutilsについては知っていますが、問題は、javascriptも抽出してテキストに追加するため、それらを分離するのが難しいことです。
htmlDom = BeautifulSoup(webPage)
htmlDom.findAll(text=True)
または、
from stripogram import html2text
extract = html2text(webPage)
これらは両方とも、ページ上のすべてのJavaScriptも抽出しますが、これは望ましくありません。
ブラウザからコピーできる読みやすいテキストを抽出したかっただけです。