0

HTMLページのtdタグの間のテキストを取得したい。

以下は、ページのhtmlコードの短いスニペットです。

 <tr align="right"><td>989</td><td>Kristoffer</td><td>Shameka</td>

 <tr align="right"><td>990</td><td>Lazaro</td><td>Deirdre</td>

 <tr align="right"><td>991</td><td>Torey</td><td>Shantell</td>

 <tr align="right"><td>992</td><td>Bill</td><td>Cherish</td>

 <tr align="right"><td>993</td><td>Bruno</td><td>Linsey</td>

 <tr align="right"><td>994</td><td>Genaro</td><td>Hali</td>

 <tr align="right"><td>995</td><td>Waylon</td><td>Tarah</td>

 <tr align="right"><td>996</td><td>Brittany</td><td>Annemarie</td>

。。。等々。

正規表現を使用して、個々のセルの値(たとえば、最初の列989、KristofferおよびShameka)を抽出したいと思います。ヘルプ!

4

1 に答える 1

2

入力HTMLが常に正しく同じ構造を持つかどうかにかかわらず、正規表現はあなたがしていることに対する最良の解決策ではありません-HTMLは正規言語ではないため、ここで説明するように、正規表現は悪い解決策になる可能性があります。

入力が同じであると信頼できない場合は、不正な形式のHTMLを処理してそのオブジェクトモデルをクエリできるHTMLAgilityPackのようなHTML解析を使用する必要があります。

入力が常に同じ形式であることがわかっている場合、この場合は、表示した入力を使用string.Splitして、必要な値を解析するために使用できます。

myHtmlString.Split(new []{@"<tr align=""right""><td>", "</td><td>", "</td>" },
                   StringSplitOptions.RemoveEmptyEntries)
于 2012-04-04T08:45:34.500 に答える