HTMLを統一するために、不十分で一貫性のないフォーマットの製品記述を含む製品データベースを調べるスクリプトを書いています。私が抱えている問題の1つは、同じ方法でフォーマットされたコード行をキャプチャして置き換えることです。たとえば、私は彼らのすべてを交換したいです
• item 1
• item 2
• item 3
と
<ul>
<li>item 1</li>
<li>item 3</li>
<li>item 2</li>
</ul>
•
各行を1行に置き換えるの<li>content</li>
は簡単ですが、リストの前後で取得できる正規表現を一生理解することはできません。私の考えは、で始まらない•
改行ができるまで、で始まるすべてをキャプチャすることです。これが私の最新の試みです(python):•
In : p = re.compile(
r'•.*(?!^•)'
)
In : p.findall(text, re.MULTILINE, re.DOTALL)
Out : []
In : p.findall(text, re.MULTILINE)
Out : ['• item 1', '• item 2', '• item 3']
In : p.findall(text, re.DOTALL)
Out : ['• item 1', '• item 2', '• item 3']
In : p.findall(text)
Out : ['• item 1', '• item 2', '• item 3']
のようなものをキャプチャする方法についてのアイデアはあります['• item 1\n• item 2\n• item 3']
か?