0

HTML アジリティ パックを使用して HTML ページを解析しようとしています。私の問題は、HAP を使用して各ページのページ ビュー カウントを解析して表示する必要があることです。3ページあるとします。各ページには、ランダムな位置にある div またはスパンまたはテーブルのページ ビュー数が含まれます。率直に言って、固定された位置がなく、ページ ビューを含むタグがどこにあるかを見つけるのは困難です。

例えば、

In Page 1
<!--Some content-->
<div>12 Page views</div>
<!--Some content-->

In Page 2
<!--Some content-->
<span>11 Page views</span>
<!--Some content-->

In Page 3
<!--Some content-->
<table><tr><td><!--Some content--></td></tr>
<tr><td>3 Page views only</td></tr></table>
<!--Some content-->

上記のタグからカウントを見つける必要があります。フォーマットは、

<no> Page views
<no> Page views Only
<no> Page view till now
etc...

コンテンツを解析する方法を提案できる人はいますか?

4

1 に答える 1

0

私は問題の解決策を得ました。それはグローバルな解決策ではありませんが、現在私にとってはうまくいっています。それが他の人を助けることを願っています。

int result = -1;
            var matches = Regex.Matches(
                HTMLText,
                @"(?:\S+\s)?\S*page views\S*(?:\s\S+)?",
                RegexOptions.IgnoreCase
            );

            foreach (Match m in matches)
            {
                string val = m.Value;
                int res=-1;
                if (Int32.TryParse(val, out res))
                {
                    result = res;
                    break;
                }
            }
于 2012-06-27T09:56:25.323 に答える