-1

次の形式のサイトがあります。

http://www.domain.com/membership/member_zoom.php?値

値は 1000 で始まり、約 15,000 で停止します

ソースのサンプルは次のとおりです。

<h1>Member Information</h1>


<h2>Company Name</h2>
<p>Address<br />
More Address<br />
City<br />
State<br />
Postal code<br />
</p>
<p><strong>Contact:</strong> Firstname Lastname, PH.D., P.ENG. - <a href="mailto:email@email.com">email@email.com</a><br /></p>
<a href="http://www.domain.com">www.domain.com</a><br />
<p><strong>Phone:</strong> (555)555-5555<br /></p>

そのため、メンバー情報と最後の div タグの間のすべてを取得してから、ID 値を 1 増やして繰り返す必要があります。しかし、死んだIDがたくさんあります。私のスクレーパーはサイトを叩き、一度インクリメントしてからもう一度叩きます。もっと簡単な方法はありますか?おそらく、フェイルセーフを構築する方法はありますか?

4

2 に答える 2

2

ID を読み込んで確認するまで、ID が存在するかどうかを判断する方法はありません。リンクのリストを見つけるか、サイトの別の部分からメンバー ID を取得する必要があります。それができない場合は、それぞれを試す必要があります。

于 2012-08-16T15:58:04.930 に答える
0

HEAD リクエストを作成します。404 をスキップして、良いもので GET を実行します。read(1024) を忘れてください。帯域幅と帯域幅が無駄になります。

于 2012-08-17T06:11:27.427 に答える