NLTK を使用してタグを削除し、テキストを html ファイルに残しています。
NLTK は私の Linux コンピューターに数秒でインストールできますが、Windows では使用するのが面倒です。別の国に住んでいるクライアントは、問題が発生した場合に nltk モジュールをインストールできないことを知っています。
Pythonに同梱されていて、インストールする必要のない単純な代替手段は何ですか? スクリプトの一部としてこれが必要です。
NLTK を使用してタグを削除し、テキストを html ファイルに残しています。
NLTK は私の Linux コンピューターに数秒でインストールできますが、Windows では使用するのが面倒です。別の国に住んでいるクライアントは、問題が発生した場合に nltk モジュールをインストールできないことを知っています。
Pythonに同梱されていて、インストールする必要のない単純な代替手段は何ですか? スクリプトの一部としてこれが必要です。
「文字列から HTML タグを削除する方法」という質問でした。
import re
def strip_tags(s):
return re.sub("<[^>]+>", "", s)
また、将来の参考のために、Christoph Gohlke の Python Extensions for Windowsページが必要になるでしょう。
編集:正規表現を修正しました。D:
二重編集:コメントに触発されて、ここに嫌悪感があります。
def strip_tags(s):
return re.sub(r"""</?\w+(\s*([^=]+=(?P<q>['"]).+?(?P=q))|\s*\w+(=\w+)?)*>""", "", s)