更新:(最初から説明していなかったブロックを含め、物事はより複雑ですが、これは正規表現などで機能するはずだと理解しています)
空ではないタグごとにHTMLブロックをテーブルレイアウトに解析する方法は? 例として、この HTML:
<p class="block1">
    <span class="styleclass2">
        <span class="styleclass25">
            <strong>
                <u></u>Some Text Here
            </strong>
            <br>
        </span>
    </span>
    <span class="styleclass5">
        <u>
            <a href="http://www.example.com">www.example.com</a>
        </u>
    </span>
    <br>
    <span class="styleclass24">Some Text Here</span>
</p>
<p class="block2">
    <span class="styleclass2">
        <span class="styleclass25">
            <strong>
                <u></u>Some Text Here2
            </strong>
            <br>
        </span>
    </span>
    <span class="styleclass5">
        <u>
            <a href="http://www.example2.com">www.example2.com</a>
        </u>
    </span>
    <br>
    <span class="styleclass24">Some Text Here2</span>
</p>
そしてこれらを作ります:
<table>
    <tr>
        <td>Some Text Here</td>
        <td>www.example.com</td>
        <td>Some Text Here</td>
    </tr>
    <tr>
        <td>Some Text Here2</td>
        <td>www.example2.com</td>
        <td>Some Text Here2</td>
    </tr>
</table>
主なアイデアは、このブロックをグループ化して、見つかったすべてのブロックの行を作成する方法です...