HTMLタグを取り除き、テキスト値を保持するのに役立つpythonモジュールを探しています。私は前に BeautifulSoup を試しましたが、この単純なタスクを実行する方法がわかりませんでした。これを実行できる Python モジュールを検索してみましたが、それらはすべて、AppEngine ではうまく機能しない他のライブラリに依存しているようです。
以下は、Ruby のサニタイズ ライブラリのサンプル コードであり、それが私が Python で求めているものです。
require 'rubygems'
require 'sanitize'
html = '<b><a href="http://foo.com/">foo</a></b><img src="http://foo.com/bar.jpg" />'
Sanitize.clean(html) # => 'foo'
ご提案いただきありがとうございます。
-e