-3

NLTK を使用してタグを削除し、テキストを html ファイルに残しています。

NLTK は私の Linux コンピューターに数秒でインストールできますが、Windows では使用するのが面倒です。別の国に住んでいるクライアントは、問題が発生した場合に nltk モジュールをインストールできないことを知っています。

Pythonに同梱されていて、インストールする必要のない単純な代替手段は何ですか? スクリプトの一部としてこれが必要です。

4

2 に答える 2

1

「文字列から HTML タグを削除する方法」という質問でした。

import re
def strip_tags(s):
    return re.sub("<[^>]+>", "", s)

また、将来の参考のために、Christoph Gohlke の Python Extensions for Windowsページが必要になるでしょう。

編集:正規表現を修正しました。D:

二重編集:コメントに触発されて、ここに嫌悪感があります。

def strip_tags(s):
     return re.sub(r"""</?\w+(\s*([^=]+=(?P<q>['"]).+?(?P=q))|\s*\w+(=\w+)?)*>""", "", s)
于 2012-10-20T13:49:02.910 に答える