0

URL、最初のURLが存在するWebページのURL、WebページのDOM、およびWebページ上の残りのURLのリストが与えられた場合、URLがページのヘッダー/フッターにあるかどうかを確実に判断するにはどうすればよいですか。またはそれがどちらにもない場合は?

私はC#/。NETを使用しています。

ウェブページが意味的に表現されておらず、一部のウェブサイト/ページがページを明確に難読化しているため、完璧な解決策はないことを私は知っていますが、たとえばウェブページの75%で機能するロジックを構築したいと思います。

また、ページ内のURLの場所を特定するのに役立つ他の情報はありますか?

4

1 に答える 1

0

ここでのクリエイティブなタスクは、「ヘッダー」と「フッター」を「上部からx単位未満のコンテンツ」または「ページの最後の200文字」のように定義することだと思います。これを完了すると、それらのルールに基づいてページを解析できます。

于 2010-07-21T04:04:46.233 に答える