HTMLアンカータグを含む生のドキュメントを解析するために解析したかったのですが、残念ながら次のような無効なタグが含まれています:
<a href="A 4"drive bay">some text here</a>
値が実際のリンクではないことはわかっていhref
ますが、そのままにしておきましょう。ここで必要なのは、href 値'A 4"drive bay'
とリンク テキストを取得することです'some text here'
。
私は python を使用しており、python ライブラリ「BeautifulSoup」を試してみましたが、すべてのアンカー タグを取得するのに非常にうまく機能します。ただし、問題は、href 値に ' " ' が含まれている前述の無効なアンカー タグに遭遇したときにエラーにフラグを立てることです。このようなケースは、解析している元のデータに存在し、そのようなデータを変更することはオプションではありません..
BeautifulSoup を使用した私の python コードのセクションは次のとおりです。
sub_s = BeautifulSoup(line)
for l in sub_s.find_all('a'):
l.replace_with(l.string)
print str(sub_s),
コードはアンカータグをプレーンテキストに置き換えるだけです
誰かが私に問題を解決してくれたら、本当に感謝しています...正規表現もそうです.. ^^