.net - HTML ソースから特定の情報を取得する

Question

私は自分の目標を達成するために一日中プログラミングをしています。最初は正規表現 (Regex) を使用してみましたが、目的は達成できましたが、あまりにも複雑で非効率的でした。

これは私が働いているサイトへのリンクです：

http://thewarezscene.org/forums/memberlist.php?start=20

ページのソース (サイトは現在ダウンしているようです) を表示すると、次の繰り返しのリンクタグに気付くでしょう。

<a href="http://thewarezscene.org/forums/username-u14088.html">USERNAME</a>

それぞれの新しいページには、サイトに登録されている全員のリストがあります。20ずつ増やします。開始 = 20、開始 = 40、開始 = 60。HTML ページからすべての要素を取得する方法は知っていますが、その特定のリンク形式のリンクテキストのみを取得するための最良の解決策は何でしょうか?

score 0 · Accepted Answer

HTML Agility Packなどの HTML パーサーを使用して、HTMLを解析します。

Html Agility Pack (HAP) とは正確には何ですか?

これは、読み取り/書き込み DOM を構築し、プレーンな XPATH または XSLT をサポートするアジャイル HTML パーサーです (実際には、使用するために XPATH や XSLT を理解する必要はありません。心配はいりません...)。これは、「Web から」HTML ファイルを解析できる .NET コードライブラリです。パーサーは、「実際の」不正な HTML に対して非常に寛容です。オブジェクトモデルは、System.Xml を提案するものと非常に似ていますが、HTML ドキュメント (またはストリーム) 用です。

この回答で示されているように、正規表現は HTML の解析にはあまり適していません。

score 0 · Accepted Answer

hrefにパラメータ「start」が存在する要素を全て取得したい場合

$("a[href*='start=']")

.net - HTML ソースから特定の情報を取得する

2 に答える 2

Related

Reference