入力データ: (リンク付きのネストされたリスト)
<ul>
<li><a>1</a>
<ul>
<li><a>11</a>
<ul>
<li><a>111</a></li>
<li><a>112</a></li>
<li><a>113</a>
<ul>
<li><a>1131</a></li>
<li><a>1132</a></li>
<li><a>1133</a></li>
</ul></li>
<li><a>114</a></li>
<li><a>115</a></li>
</ul>
</li>
<li><a>12</a>
<ul>
<li><a>121</a>
<ul>
<li><a>1211</a></li>
<li><a>1212</a></li>
<li><a>1213</a></li>
</ul></li>
<li><a>122</a></li>
</ul>
</li>
</ul>
</li>
</ul>
文字列の出力配列:
1,11,111
1,11,112
1,11,113,1131
1,11,113,1132
1,11,113,1133
1,11,114
1,11,115
1,12,121,1211
1,12,121,1212
1,12,121,1213
1,12,122
要素のテキストを含むフルパス
私が試したこと: 1. XML::SAX::ParserFactory
https://gist.github.com/7266638ここには多くの問題があります。liが最後かどうかを検出する方法、パスを保存する方法など。悪い方法だと思います。
- それは完全に正規表現ではなく、実際の例のhtmlではさらに悪い. 多くのタグ、div、スパンなど
ドム?しかし、どのように?