たとえば、これは私の文字列です:
myString = "<html><body><p>Hello World!</p><p>Hello Dennis!</p></body></html>"
そして私が達成しようとしているのは:
myList = ['Hello World!','Hello Dennis!']
正規表現または別の方法を使用myString
して、達成するためにhtmlタグを無視しながら段落テキストを除外するにはどうすればよいmyList
ですか?
私が試してみました:
import re
a="<body><p>Hello world!</p><p>Hello Denniss!</p></body>"
result=re.search('<p>(.*)</p>', a)
print result.group(1)
その結果:Hello world!</p><p>Hello Denniss!
そして私が試したとき、私は(.*)(.*)
得ましたHello World!
この文字列は単なる例です。文字列は<garbage>abcdefghijk<gar<bage>
、Web 開発者が Web サイトをどのようにコーディングしたかによっても異なる場合があります。
これは複雑な正規表現かもしれませんが、今年後半に参加するサイバー セキュリティ コンテストのため、これを学ぶ必要があります。私の最善の策は、 a>
と a の間のテキストを検索するアルゴリズムを開発することだと思います<
。
これについてどうすればいいですか?
私の質問が適切にフォーマットされていない場合は申し訳ありませんが、学習上の問題が少しあります。