0

私は自分の目標を達成するために一日中プログラミングをしています。最初は正規表現 (Regex) を使用してみましたが、目的は達成できましたが、あまりにも複雑で非効率的でした。

これは私が働いているサイトへのリンクです:

http://thewarezscene.org/forums/memberlist.php?start=20    

ページのソース (サイトは現在ダウンしているようです) を表示すると、次の繰り返しのリンク タグに気付くでしょう。

<a href="http://thewarezscene.org/forums/username-u14088.html">USERNAME</a>

それぞれの新しいページには、サイトに登録されている全員のリストがあります。20ずつ増やします。開始 = 20、開始 = 40、開始 = 60。HTML ページからすべての要素を取得する方法は知っていますが、その特定のリンク形式のリンク テキストのみを取得するための最良の解決策は何でしょうか?

4

2 に答える 2

0

HTML Agility Packなどの HTML パーサーを使用して、HTMLを解析します。

Html Agility Pack (HAP) とは正確には何ですか?

これは、読み取り/書き込み DOM を構築し、プレーンな XPATH または XSLT をサポートするアジャイル HTML パーサーです (実際には、使用するために XPATH や XSLT を理解する必要はありません。心配はいりません...)。これは、「Web から」HTML ファイルを解析できる .NET コード ライブラリです。パーサーは、「実際の」不正な HTML に対して非常に寛容です。オブジェクト モデルは、System.Xml を提案するものと非常に似ていますが、HTML ドキュメント (またはストリーム) 用です。

この回答で示されているように、正規表現は HTML の解析にはあまり適していません。

于 2012-08-09T18:15:07.560 に答える
0

hrefにパラメータ「start」が存在する要素を全て取得したい場合

$("a[href*='start=']")
于 2012-08-09T18:23:08.943 に答える