このテキストを抽出する必要があります:
Line 1 text.
Line 2 text. Line 2 some more text.
Line 3 text,
Line 4 text
このHTMLから:
...
<tr><td class="td_my_custom_text">Line 1 text.
<br>Line 2 text. Line 2 some more text.
<br>Line 3 text,
<br>Line 4 text
<br></td></tr><tr><td> </td></tr>
...
この正規表現の使用:<td\ class="td_my_custom_text">[\s\S]*?</td>
私は何かを近づけることができましたが、十分に近づいていません。<td class="td_my_custom_text">
、<br>
そして</td>
まだ中にいて、私は立ち往生しています。
- それらを取り除くために私の正規表現で何を変更する必要がありますか?
- このジョブを自動化し、抽出したデータを新しいファイルにコピーするためのWindowsツールはありますか?私はこのような5000以上のファイルを持っており、正規表現またはhtmlパーサーを使用して小さなプログラムを作成することを考えていますが、最初にもっと良いアプローチがあるかどうか知りたいです。