REモジュールを使用してタグ内の単語を除くすべての単語を検索するにはどうすればよいですか?
私は何かを見つける方法を知っていますが、それを反対の方法で行う方法はありますか?検索するものを書くように、実際には、タグ内のすべてとタグ自体を除くすべての単語を検索したいですか?
これまでのところ、私はこれを管理しました:
f = open (filename,'r')
data = re.findall(r"<.+?>", f.read())
タグ内のすべてを印刷します<>
が、それらのタグ内の単語を除くすべての単語を検索するようにするにはどうすればよいですか?^
内部のパターンの先頭で使用しようとしました[]
が、その後、記号.
は文字通り特別な意味を持たずに扱われます。また、文字列を分割し、を使用して'''\= <>"'''
、文字列全体でタグ内の単語<>
(align、right、tdなど)をチェックし、<>タグ内にない単語を別のリストに追加することで、これを解決することができました。しかし、それは少し醜い解決策です。
<>
中にあるものとこれらのタグ自体を除いて、すべての単語を検索する簡単な方法はありますか?したがって、文字列'hello 123 <b>Bold</b> <p>end</p>'
をre.findall
、とすると、次のようになります。
['hello', '123', 'Bold', 'end']