2

入力データ: (リンク付きのネストされたリスト)

<ul>
    <li><a>1</a>
        <ul>
            <li><a>11</a>
                <ul>
                    <li><a>111</a></li>
                    <li><a>112</a></li>
                    <li><a>113</a>
                    <ul>
                        <li><a>1131</a></li>
                        <li><a>1132</a></li>
                        <li><a>1133</a></li>
                    </ul></li>
                    <li><a>114</a></li>
                    <li><a>115</a></li>
                </ul>
            </li>
            <li><a>12</a>
                <ul>
                    <li><a>121</a>
                    <ul>
                        <li><a>1211</a></li>
                        <li><a>1212</a></li>
                        <li><a>1213</a></li>
                    </ul></li>
                    <li><a>122</a></li>
                </ul>
            </li>
        </ul>
    </li>
</ul>

文字列の出力配列:

 1,11,111
 1,11,112
 1,11,113,1131
 1,11,113,1132
 1,11,113,1133
 1,11,114
 1,11,115
 1,12,121,1211
 1,12,121,1212
 1,12,121,1213
 1,12,122

要素のテキストを含むフルパス

  • チャイルドなし。

    私が試したこと: 1. XML::SAX::ParserFactory

    https://gist.github.com/7266638ここには多くの問題があります。liが最後かどうかを検出する方法、パスを保存する方法など。悪い方法だと思います。

    1. それは完全に正規表現ではなく、実際の例のhtmlではさらに悪い. 多くのタグ、div、スパンなど

    ドム?しかし、どのように?

  • 4

    1 に答える 1