ちょっとばかげて申し訳ありませんが、Python の助けが本当に必要です。
['<a href="needs to be cut out">Foo to BAR</a>', '<a href="this also needs to be cut out">BAR to Foo</a>']
だから私はこのタプルを持っていて、その href 属性の中にあるものとタグの中にあるものを切り取る必要があります<a>
- 基本的に、私は次のようなタプルを取得したいです:
[["needs to be cut out", "Foo to BAR"], ["this also needs to be cut out", "BAR to Foo"]]
href 属性内には、たとえば、多くの特殊記号があります。
<a href="?a=p.stops&direction_id=23600&interval=1&t=wml&l=en">
私が思うに、オブジェクト ツリーを解析する必要がなく、Web ページの URL と単語だけが必要な場合、HTML パーサーを使用するのは非常に困難です。しかし、正規表現を形成する方法を本当に理解できません。私が作成した正規表現は完全に間違っているようです。そこで、誰かが私を助けてくれるかどうか尋ねています。